Geekitude

Geekeries en tout genres

Outils pour utilisateurs

Outils du site


info:logiciels:doku:stopwords
[stopwords]

Le fichier stopwords.txt est une liste de mots fréquents exclus de l'indexation ce qui permet d'améliorer nettement l'efficacité des recherches et autres utilisations de l'index. Celui fournit par défaut pour le français n'est pas très complet. En voici une autre version qui inclus les mots proposés par DokuWiki, ceux de cette liste et quelques ajouts personnels.

Assurez vous que le fichier final soit encodé en UTF8 et se termine par une ligne vide.

stopwords.txt
# Cette liste regroupe les mots ignorés par l'indexeur
# Un seul mot par ligne
# Les fins de ligne de ce fichier doivent être de type UNIX
# Les mots de moins de 3 lettres sont ignorés par défaut.
# Cette liste est basée sur http://www.ranks.nl/stopwords/
accueil
alors
après
au
aucun
aucuns
aussi
autre
autres
avant
avec
avoir
bon
ça
car
ce
cela
ces
ceux
chaque
ci
comme
comment
dans
début
dedans
dehors
depuis
des
deux
devrait
doit
donc
dos
droite
du
elle
elles
en
encore
essai
est
et
étaient
état
été
étions
être
eu
fait
faites
fois
font
force
haut
hors
ici
il
ils
je
juste
la
là
le
les
leur
ma
maintenant
mais
même
mes
mine
moins
mon
mot
ni
nommés
notre
nous
nouveaux
ou
où
par
parce
parole
pas
personnes
permet
peu
peut
pièce
plupart
pour
pourquoi
quand
que
quel
quelle
quelles
quelques
quels
qui
sa
sans
ses
seulement
si
sien
son
sont
sous
soyez
sujet
tandis
tellement
tel
tels
tes
ton
tous
tout
très
trop
tu
valeur
voie
voilà
voient
vont
votre
vous
vu
info/logiciels/doku/stopwords.txt · Dernière modification : 2018/05/03 10:38 de 127.0.0.1