Les sous-index
Ils sont 4: fold
, rich
, stem
et raw
.
fold
: le texte est découpé en jetons (c’est à dire que tous les mots sont séparés). Les mots sont ensuite transformés en minuscules. Tous les caractères alphabétiques, numériques et symboliques, au sens Unicode dont la codification est supérieure aux 127 caractères ASCII (le bloc Unicode « Basic Latin » ), sont convertis en leur équivalent ASCII, si c’est possible.
rich
: le texte est découpé en jetons (c’est à dire que tous les mots sont séparés) mais aucune autre opérations de conversion n’est faite.
stem
: le texte est découpé en jetons (c’est à dire que tous les mots sont séparés) et on applique ensuite la racinisation selon l’algorithhmer de Porter. Cet algorithme est appliqué quelque soit la langue bien qu’il ne soit prévu que pour l’anglais.
raw
: le texte est brut, c’est à dire qu’il n’y a aucun traitement sur le texte.
Index | Verbalisation | fold | rich | stem | raw |
---|---|---|---|---|---|
au | Auteur | yes | yes | no | yes |
ti | Titre | yes | yes | yes | no |
co | Conférence | yes | yes | no | yes |
ex | Exposition | yes | yes | no | yes |
jo | Revue | yes | yes | no | yes |
ab | Résumé | yes | yes | yes | no |
kw | Mots-clé | yes | yes | yes | yes |
dt | Type de document | no | yes | no | yes |
py | Année de publication | no | no | no | yes |
la | Langue | yes | yes | no | yes |
is | ISBN/ISSN | yes | yes | no | yes |
id | Identifiant | yes | yes | no | yes |
pu | Editeur | yes | yes | no | yes |
pc | Pays de publication | yes | yes | no | yes |