Langue utilisée par l'index


L'onglet Langue est à utiliser pour spécifier comment Wilbur doit manipuler les différents caractères et les mots appartenant à d'autres langues que l'anglais.

Fichiers type DOSMots à ignorerCaractères spéciauxOptions de langueOptions de cryptage des fichiers zipInclure / Exclure des fichiersOptions généralesIndexlanguagedlg.gif (27271 octets)

Caractères spéciaux

Pour des fichiers contenant du texte pur, pourrait simplement présumer que tous les caractères possibles doivent être indexés, mais si le texte est extrait de données binaires, comme c'est le cas avec les fichiers de traitement de texte, un jeu de caractère plus restreint facilitera la distinction par Wilbur entre le texte et les données binaires.

Dans le cas le plus simple, Wilbur n'indexera que les caractères de l'alphabet anglais et le caractère de soulignement. Tous les autres caractères seront alors tenus comme terminant ou séparant les mots. Cependant, dans de nombreux cas, les fichiers indexés ne seront pas en anglais, de sorte que Wilbur propose une option pour ajouter des caractères additionnels.

Les jeux de caractères adaptés des principales langues européennes peuvent être choisis directement en cochant la case correspondante. Remarquez que plusieurs langues peuvent être sélectionnées.

Si la langue de votre choix n'apparaît pas, vous pouvez essayer de composer un jeu de caractères approprié en cochant plusieurs cases ou bien en cochant Tous caractères internationaux. Cependant il est probablement préférable de décocher toutes les options de langue et de spécifier expressément les caractères nécessaires dans la zone de saisie appropriée permettant de préciser des caractères additionnels que vous trouverez dans l'onglet Options des Propriétés de l'index.

Fichier des mots ignorés

Il n'est guère utile d'indexer des mots qui sont très communs et apparaissent dans la plupart des fichiers. Wilbur est installé par défaut avec une liste de mots communs pour le français qui sont ignorés dans le processus d'indexation dans le but d'augmenter la vitesse des opérations et de diminuer l'espace occupé sur le disque. Ces mots sont contenus par défaut dans le fichier skip.txt qui se trouve dans le même dossier que l'exécutable Wilbur.

Un fichier différent peut être spécifié en entrant un nom différent dans le champ Fichier des mots ignorés. Le fichier doit être dans le dossier de Wilbur et doit avoir une extension TXT, mais seule la partie de base du nom est requise ici. Par exemple un fichier nommé législation.txt sera entré sous la forme législation.

NB : Vous pouvez aussi utiliser le fichier des mots anglais à ignorer livré avec la version anglaise de Wilbur. Ce fichier est également disponible dans la présente version française, dans le même répertoire que skip.txt, sous le nom skip_english.txt.

Wilbur fournit des outils pour automatiser partiellement la création de fichiers de mots à ignorer supplémentaires. Veuillez consulter Créer un fichier des occurrences et Importer des mots à ignorer du Menu index.

Fichiers type DOS

Quand cette option est cochée, Wilbur supposera que tout fichier qui paraît être composé entièrement de texte doit être traité comme constitué selon la norme des caractères internationaux DOS. Etant donné que les programmes Windows comme le Bloc-notes et les navigateurs du Web créeront des fichiers texte employant le jeu de caractères internationaux Windows, vous ne voudrez probablement pas cocher cette option, à moins que vous ne soyez certain que les fichiers à indexer ont bien été créés selon la norme DOS. Tous les fichiers qui semblent être dans un format binaire, comme ceux des documents MS Word, sont considérés comme des fichiers de type Windows.


Copyright © 1999 RedTree Development Inc. Tous droits réservés. L'information contenue dans ce document est susceptible d'être modifiée sans préavis. Tous les autres produits et sociétés mentionnés sont des marques déposées ou les marques déposées de leurs sociétés respectives ou de leurs détenteurs.