Ecila est un moteur de recherche français
lancé en 1995.
En recherche simple un OU est ajouté entre les termes. En recherche complexe, on dispose du ET, OU et NON ainsi que de la recherche de phrase avec les guillemets. Ecila tient compte des balises HTML suivantes : TITLE, URL et META. Les accents sont ignorés par Ecila. Lorsque le robot charge un document, il convertit tous les accents dans leurs équivalents non accentués. Il sait convertir les séquences HTML du style é ou ê et les caractères ISO-8859-1. Le programme qui traite une interrogation de Ecila procède de même avec tous les mots de la question. Ainsi un document contenant fête sera traduit en fete et une question contenant fete non accentue par inattention aboutira malgré tout. Les différences majuscules minuscules ne sont pas significatives. Par exemple Elsa sera considéré équivalent à ELSA. Les caractères spéciaux sont ignorés lors d'une recherche ou durant l'indexation. Ainsi la question http://www.com/ est équivalente à la question http www com.
Wais a été abandonné au profit du moteur Search'97 de Verity.
Lancé fin 95, Excite a proposé une nouvelle
version de son moteur de recherche et revendique la
première place en volume : la base de données
pointe vers plus de 55 millions de pages Web. Le service
explore aussi les deux dernières semaines de 10 000
groupes de News. La base de données est mise à jour chaque
semaine. Excite a acquis Magellan en juillet 96 et
WebCrawler en novembre 96. Ces derniers
continuent en tant que services séparés. Excite utilise une méthode dite "Intelligent Concept Extraction" pour analyser un site et déterminer les mots-clès à indexer, en cherchant des concepts plutôt que des mots. Il utilise un algorithme pour trouver des thèmes, il n'indexe donc pas le texte complet et ne tient pas compte des balises META. Le concept de chaînes (channels) structure un répertoire sélectif de 140 000 sites. Une "chaîne" fédère dans une même page diverses informations relatives à un même thème.
La recherche se fait soit par mots-clès, soit par concepts : La première méthode ne ramène que les documents contenant les termes de la recherche alors que la seconde peut donner des documents contenant de l'information liée à ces termes. Le producteur prétend que les premiers documents sont identiques dans les deux cas. Le moteur utilise une technique dite floue (fuzzy AND) en
combinant les opérateurs AND et OR pour une recherche
sur plusieurs termes.
Il est possible de trier les résultats par site web. Le moteur de recherche Excite est en passe de développer une nouvelle interface graphique de présentation des résultats de recherche en 3D. Développé en Java, le site devrait permettre de visualiser sur une seule page les réponses principales au centre, et les concepts approchant en orbite.
InfoSeek a été lancé début 95. Au printemps 96, Ultraseek a profondément fait évoluer ce service en passant de 2 millions à 50 millions d'URL. Il permet de rechercher l'information dans les serveurs web, Gopher, FTP, les groupes de News (FAQ comprises) et des sites évalués. La mise à jour se fait toutes les une à deux semaines. InfoSeek est localisé dans 11 pays.
Infoseek recherche automatiquement les variations des termes grâce à une troncature implicite à droite (exemple : photography, photographer, photographs) l'ordre des termes a son importance : c'est indispensable pour rechercher des mots composés ou des morceaux de phrases. En recherche simple, on pose une question en entrant les termes de recherche sans opérateur booléen ni caractère de troncature. Le logiciel ne recherche pas les mots vides. Cependant les majuscules sont prises en compte : c'est utile pour la recherche des noms propres. Pour préciser une question, on utilisera les règles suivantes :
Les facteurs de tri les plus importants sont : - les termes de recherche présents dans le titre et au début du document sont privilégiés, - la fréquence des termes de recherche dans le document. Cependant la taille de l'Internet conduit souvent à une liste importante de réponse. InfoSeek utilise une technique brevetée pour différencier les pages riches en information des pages pauvres. De plus il propose une liste de sujets à explorer en rapport avec la question. Parallèlement à la recherche directe, InfoSeek propose 18 catégories ce qui permet d'interroger un sous-ensemble de la base de données. Mais ces catégories sont créées automatiquement par reconnaissance de vocabulaire et ne sont donc pas toujours très pertinentes.
Le nouveau Lokace, lancé fin 98, compte 6
millions de pages Web francophones indexées (un
million de pages ramenées par jour par le robot). La
base est vérifiée toutes les semaines. Lokace
va proposer la recherche dans les listes de diffusion et
newsgroups francophones. Lokace a été racheté par la
société Infonie et comptabilisait 2,5 millions
de pages vues en septembre 1998.
Lokace effectue sa recherche en tenant compte du
masculin, du féminin, du singulier et du pluriel des
mots. Le bouton
recherche avancée permet
d'indiquer quels sont les termes qui doivent obligatoirement
se trouver dans les réponses proposées, de
spécifier certains termes susceptibles d'être
pris en compte et d'autres termes à ignorer
absolument. Lokace annonce la prise en compte des chiffres et des mots d'une ou deux lettres, et l'implémentation de la version bêta 0 d'un "moteur conceptuel", qui permettrait d'accroître la pertinence des réponses en proposant notamment à l'utilisateur de préciser son champ de recherche.
Ils sont triés par ordre décroissant d'intérêt. Les premières réponses sont celles qui contiennent tous les termes que l'on a saisi puis elles sont suivies de celles qui ne contiennent que certains des mots de la demande. Il est possible de parcourir des catégories : 12 au départ vers plus de 3000. Mais les documents sont classés automatiquement et le résultat n'est pas toujours correct.
Lancé en juillet 98, Voila est la suite du moteur
Echo racheté par France Telecom. Le service s'internationalise avec l'ouverture de Voila.com qui propose une recherche mondiale et pour 5 pays en plus de la France.
On peut préciser sa question en indiquant dans document avec de rechercher des documents du web contenant des scripts JAVA, des FRAMES, un document de type IMAGE, SON ou VIDEO, fichier MAC (hqx, sit ...), PC (exe ...) ..., des fichiers d'un type particulier (PDF, DOC, ...) en tapant leur extension en majuscule lors de la recherche par mot clé. Les mots peuvent être déclinés en tenant compte de règles du français grâce à l'option orthographe stricte ou voisine.
Le classement des réponses tient compte du contenu des balises META et de la place des mots dans le document HTML. On peut limiter l'affichage aux réponses indexées dans les 15 derniers jours ou choisir un regroupement par sites. Il effectue aussi une recherche par mots-clé dans une base de plus de 200 000 adresses e-mail francophones. La page d'accueil affiche les catégories principales de l'annuaire QuiQuoiOù. Enfin Les pages News permettent de retrouver des messages échangés dans les groupes de News francophones. Le service est complété par les sélections hebdomadaires de sites.
|