|
|
Options de l'index
La page d'options est à utiliser pour spécifier un certain nombre de prescriptions complémentaires préparant l'indexation :

Options générales
- Fichiers zip comme dossiers - Cochez cette option si vous voulez que les fichiers compressés se trouvant à l'intérieur des archives zip soient indexés. De cette façon, ces fichiers compressés peuvent être explorés et affichés comme n'importe quel autre fichier. Notez que dans ce cas vous ne devez pas ajouter les fichiers zip eux-mêmes à la liste des fichiers à inclure.
- Inclure le compte des mots - Cochez cette option si vous souhaitez que Wilbur enregistre le nombre de fois que chaque mot apparaît dans chaque fichier. Cette valeur est affichée dans une des colonnes de la liste des fichiers et les résultats peuvent être triés selon cet ordre. Pour économiser de l'espace, seules les 256 premières occurrences seront comptabilisées (le compte n'occupera qu'un octet). Si la taille de l'index fait problème, vous pouvez décocher cette option pour économiser de l'espace.
- Prendre en compte tous les fichiers - Si cette option est cochée, Wilbur indexe les caractéristiques de tous les fichiers dans tous les dossiers qu'il visite, et non pas seulement les fichiers de la liste d'inclusion. Le contenu des fichiers qui ne sont pas dans la liste d'inclusion n'est toujours pas indexé, mais Wilbur indexe leur nom, le nom du dossier dans lequel ils se trouvent, leur taille, la date de leur dernière modification et leurs attributs, toutes ces données pouvant ainsi faire l'objet de recherches.
Wilbur n'inclura pas les informations concernant les documents qui ne se trouvent pas dans la liste des fichiers à inclure ou dans l'un de leurs sous-répertoires. Si vous voulez inclure tous les fichiers sur votre machine, mais ne souhaitez pas en indexer le contenu, vous pouvez utiliser une entrée d'inclusion factice comme c:\*.xxx pour forcer Wilbur (avec cette option cochée) à explorer tous les dossiers. Bien sûr, si vous employez déjà quelque chose comme c:\*.doc, ce ne serait pas nécessaire.
- Longueur mini. des mots - Il s'agit de la longueur du plus petit mot que Wilbur doit indexer. La valeur par défaut est de 3, caractères mais elle peut être augmentée pour diminuer le nombre de mots indexés non significatifs, et ainsi réduire la taille de l'index. Bien entendu, des recherches de chaînes comme IBM ne seraient alors plus possibles. Vous pouvez aussi diminuer cette valeur, mais vous risquez alors d'inclure une trop grande quantité de termes si vous indexez des fichiers binaires - comme des documents de traitement de texte.
- Longueur maxi. des mots - C'est la longueur du plus long mot que Wilbur doit indexer. Comme pour la longueur mini., cela peut être modifié pour que l'indexation soit adaptée au type de documents à explorer. Par exemple, les programmeurs indexant du code source voudront probablement spécifier d'assez grandes valeurs, dans la mesure où les noms des variables et des routines peuvent souvent être très longs. Une valeur de zéro a une signification spéciale. Elle demande à Wilbur d'employer une valeur de 100 caractères pour les fichiers qui semblent ne contenir que du texte pur, et de 20 caractères pour les fichiers qui semblent contenir des données binaires. Il s'agit là du comportement des versions de Wilbur antérieures à la version 1.5.
Autres caractères à indexer
Pour mieux contrôler les caractères devant être considérés comme significatifs, les options suivantes sont proposées :
Nombres - les options disponibles sont :
- Pas de nombres - par défaut
- Pas de nombres au début - les caractères numériques peuvent se trouver n'importe où dans le mot sauf au début.
- Nombres n'importe où - les caractères numériques sont dans ce cas aussi significatifs que les caractères alphabétiques. Bien sûr, dans certains fichiers de données, cela augmentera énormément le nombre de mots uniques indexés.
Autres Caractères
Vous pouvez spécifier explicitement les caractères qui doivent être considérés comme significatifs. Si votre langue n'est pas listée parmi celles proposées dans l'onglet Langues, saisissez ici, l'un à la suite de l'autre - sans virgule ni espace - les caractères additionnels à prendre en compte.
Les caractères placés dans le champ Autres n'importe où seront valables n'importe où dans un mot, tandis que les caractères entrés dans le champ Autres ailleurs qu'au début ne seront pas retenus s'ils apparaissent en tant que caractères initiaux d'un mot.
Par exemple, si vous voulez pouvoir faire une recherche sur le terme C ++ dans des fichiers de curriculum vitae que vous avez reçus, vous pourriez y parvenir en plaçant un + (un seul) dans le champ Autres ailleurs qu'au début. Évidemment, vous ne voudrez probablement pas le faire si vous avez à indexer le code source de programmes puisque le + termine souvent les noms de variables.
Notez que si vous incluez des caractères comme * ou ? qui ont une signification spéciale dans les requêtes de recherche, ils perdront leur signification spéciale et seront alors traités comme tous les autres caractères.
|