Les différentes sortes de recherche en linguistique, et les caractéristiques du moteur de recherche de l'outil BSR
Les définitions (et/ou les noms) associées aux
entrées de répertoires peuvent être considérés comme du texte, qu'un moteur
de recherche va indexer et permettre d'interroger. On peut distinguer les
niveaux suivants pour une telle recherche, suivant le niveau linguistique
atteint :
1.
le niveau «
mots-clés » : la recherche est effectuée en cherchant les mots que
l'utilisateur aura entrés, et seulement ceux-là. Cela implique une parfaite
adéquation entre le langage employé par les utilisateurs et celui figurant
dans les (définitions et/ou noms) des entrées de répertoires interrogées;
2. le
niveau « sémantique » : ici, on ne recherche plus seulement les mots
de l'utilisateur mais aussi des mots de sens proche (typiquement des synonymes
et des mots de sens plus générique ou plus spécifique). Cela requiert soit
l'utilisation d'un réseau sémantique lors de l'interprétation
de la requête (afin d'étendre la recherche), soit l'insertion desdits mots de
sens proche dans les index des répertoires interrogés. Cela implique
également que le système soit capable de reconnaître les mots composés de la
langue afin de pouvoir considérer, par exemple, « pomme de terre » comme un
tout (et rechercher plus généralement sur les tubercules) et non comme la
juxtaposition de deux mots (ce qui pourrait amener à étendre une telle
recherche sur les vergers ou le cidre) ;
3.
le
niveau « phrase simple » : le système considère la requête de
l'utilisateur (ou le texte à indexer), non plus comme une liste de mots mais
comme une phrase, qui possède son sens propre, et choisit, pour chacun des
mots, l'ensemble de sens appropriés par rapport à la phrase initiale (par
exemple, sur la phrase « avocats en salade », le système choisira les mots
proches du sens « fruit » d'avocat et n'effectuera pas d'expansion sur le
thème des hommes de loi). On parle alors de désambiguïsation sémantique. De
plus, le système connaît les « têtes » sémantiques des mots composés et
étendra la recherche sur celles-ci (par exemple, si le mot « vin de table »
est connu du dictionnaire, la recherche prendra en compte « vin », mais
n'explorera pas ce qui est lié à « table ») ;
4.
le
niveau « phrase complexe » : ce niveau implémente les traitements des
phrases simples, mais prend également en compte les structures linguistiques
complexes, telles que la coordination et l'exclusion. De plus, des recherches
déduites de la recherche initiale peuvent être effectués, afin de l'
élargir. Par exemple dans le cas d'une requête (ou d'un index) qui
serait « vegetable seed for sowing », on va rechercher (resp. indexer) sur «
vegetable seed » et « seed for sowing », mais pas « vegetable for sowing ».
Évidemment,
le quatrième niveau est nécessaire pour prendre en compte la
complexité des définitions dans les répertoires. Ceci
implique un puissant dictionnaire modélisé et un moteur linguistique
qui utilise ce dictionnaire ainsi que plusieurs modules spécifiques pour
prendre en compte les phénomènes linguistiques qui existent en grand
nombre dans les répertoires.
Ceci permet au système de
calculer la distance sémantique entre
la question de l'utilisateur et les entrées trouvées.
Avec un dictionnaire de haute qualité, cette distance peut également être calculée entre les entrées dans différentes langues,
permettant la comparaison d'une question en français avec une
description en anglais, par exemple.
Cette technologie sophistiquée
est utilisée dans le moteur
de recherche de l'outil BSR, afin de permettre des recherches très poussées sur des répertoires, même en mode de langue
croisée (question en français sur
des répertoires anglais).