Ecila

 taille : 4 M de pages

 MAJ : chaque semaine

 Mots vides : OUI

 Date : NON

Ecila est un moteur de recherche français lancé en 1995.
En avril 99, il vient de faire peau neuve une nouvelle fois en adoptant une page d'accueil de type portail.
Il offre toujours le moteur de recherche avec 4 millions d'URLs francophones, mais aussi un annuaire de 1 500 sites et les dépêches d'actualité AFP.

 Recherche

Les documents sont tronqués à 30 Koctets.
En recherche simple un OU est ajouté entre les termes.
En recherche complexe, on dispose du ET, OU et NON ainsi que de la recherche de phrase avec les guillemets.
Ecila tient compte des balises HTML suivantes : TITLE, URL et META.
Les accents sont ignorés par Ecila. Lorsque le robot charge un document, il convertit tous les accents dans leurs équivalents non accentués. Il sait convertir les séquences HTML du style é ou ê et les caractères ISO-8859-1. Le programme qui traite une interrogation de Ecila procède de même avec tous les mots de la question.
Ainsi un document contenant fête sera traduit en fete et une question contenant fete non accentue par inattention aboutira malgré tout.
Les différences majuscules minuscules ne sont pas significatives. Par exemple Elsa sera considéré équivalent à ELSA.
Les caractères spéciaux sont ignorés lors d'une recherche ou durant l'indexation. Ainsi la question http://www.com/ est équivalente à la question http www com.

 

 Résultats

Les résultats sont classés par score et affichés par groupes de 10. Chaque réponse est suivie de la taille du fichier en Koctets et de la date d'entrée dans la base de données.

Wais a été abandonné au profit du moteur Search'97 de Verity.


Excite et Excite France

 taille : 55 M de pages

 MAJ : 1 j à 6 semaines

 Mots vides : OUI

 Date : NON

Lancé fin 95, Excite a proposé une nouvelle version de son moteur de recherche et revendique la première place en volume : la base de données pointe vers plus de 55 millions de pages Web. Le service explore aussi les deux dernières semaines de 10 000 groupes de News.
Excite est localisé dans 9 pays.

La base de données est mise à jour chaque semaine.
Infos du jour, revues de sites, liens vers d'autres moteurs de recherche complètent le service.
Les visiteurs peuvent personnaliser le service dès la page d'accueil et choisir les nouvelles et sources d'information qui apparaîtront automatiquement à chaque visite sur le site. Nouvelles, sports, météo locale, cote de la Bourse et horoscope figurent parmi les différentes options possibles du service nommé All About You.

Excite a acquis Magellan en juillet 96 et WebCrawler en novembre 96. Ces derniers continuent en tant que services séparés.
Global Excite pointe vers l'Australie, la Chine, la France, l'Allemagne, l'Italie, le Japon, la Hollande, la Suède et U.K.

Excite utilise une méthode dite "Intelligent Concept Extraction" pour analyser un site et déterminer les mots-clès à indexer, en cherchant des concepts plutôt que des mots. Il utilise un algorithme pour trouver des thèmes, il n'indexe donc pas le texte complet et ne tient pas compte des balises META. Le concept de chaînes (channels) structure un répertoire sélectif de 140 000 sites. Une "chaîne" fédère dans une même page diverses informations relatives à un même thème.

 Recherche

La page d'accueil est maintenant très chargée mais le formulaire de recherche simple est situé en haut d'écran.
La recherche se fait soit par mots-clès, soit par concepts :
La première méthode ne ramène que les documents contenant les termes de la recherche alors que la seconde peut donner des documents contenant de l'information liée à ces termes. Le producteur prétend que les premiers documents sont identiques dans les deux cas.

Le moteur utilise une technique dite floue (fuzzy AND) en combinant les opérateurs AND et OR pour une recherche sur plusieurs termes.
On dispose alors d'un formulaire permettant d'éviter l'utilisation explicite des opérateurs booléens et des parenthèses. C'est une approche opposée à celle d'AltaVista.

 Résultats

Les résultats sont classés par ordre de pertinence, avec un titre, un résumé mais sans l'URL. Il est possible de cliquer sur un icône pour relancer la recherche vers des documents similaires.

Il est possible de trier les résultats par site web.

Le moteur de recherche Excite est en passe de développer une nouvelle interface graphique de présentation des résultats de recherche en 3D. Développé en Java, le site devrait permettre de visualiser sur une seule page les réponses principales au centre, et les concepts approchant en orbite.


InfoSeek et InfoSeek france

 taille : 50 M de pages

 MAJ : 1 j à 8 semaines

 Mots vides : NON

 Date : OUI

InfoSeek a été lancé début 95. Au printemps 96, Ultraseek a profondément fait évoluer ce service en passant de 2 millions à 50 millions d'URL. Il permet de rechercher l'information dans les serveurs web, Gopher, FTP, les groupes de News (FAQ comprises) et des sites évalués. La mise à jour se fait toutes les une à deux semaines.

InfoSeek est localisé dans 11 pays.
Infoseek indexe le texte intégral des documents trouvés sur les serveurs visités.

 Recherche

Le traitement de la question présente des caractéristiques intéressantes :

Infoseek recherche automatiquement les variations des termes grâce à une troncature implicite à droite (exemple : photography, photographer, photographs) l'ordre des termes a son importance : c'est indispensable pour rechercher des mots composés ou des morceaux de phrases.

En recherche simple, on pose une question en entrant les termes de recherche sans opérateur booléen ni caractère de troncature. Le logiciel ne recherche pas les mots vides. Cependant les majuscules sont prises en compte : c'est utile pour la recherche des noms propres. Pour préciser une question, on utilisera les règles suivantes :

règle

exemple

un nom propre : mettre la première lettre en majuscule

Oson Welles

deux noms propres : mettre une virgule entre

Laurel, Hardy

un mot composé : entre guillemets, proximité large

ministère culture

séparés par un tiret pour une proximité forte

laser-printer ISO-9000

entre crochets si l'ordre est indifférent

[WWW search]

obligatoirement un mot : coller un signe plus devant

chip +Motorola

un mot et éviter un autre : coller un signe moins devant

python -Monty

penser aux synonymes

CD-ROM, CDROM, cdrom

 Résultats

Le résultat d'une recherche est trié et les documents les plus pertinents apparaissent en tête.
Les facteurs de tri les plus importants sont :
- les termes de recherche présents dans le titre et au début du document sont privilégiés,
- la fréquence des termes de recherche dans le document.

Cependant la taille de l'Internet conduit souvent à une liste importante de réponse. InfoSeek utilise une technique brevetée pour différencier les pages riches en information des pages pauvres. De plus il propose une liste de sujets à explorer en rapport avec la question.

Parallèlement à la recherche directe, InfoSeek propose 18 catégories ce qui permet d'interroger un sous-ensemble de la base de données. Mais ces catégories sont créées automatiquement par reconnaissance de vocabulaire et ne sont donc pas toujours très pertinentes.


Lokace

 taille : 6 M de pages

 MAJ : chaque semaine

 Mots vides : OUI

 Date : NON

Le nouveau Lokace, lancé fin 98, compte 6 millions de pages Web francophones indexées (un million de pages ramenées par jour par le robot). La base est vérifiée toutes les semaines. Lokace va proposer la recherche dans les listes de diffusion et newsgroups francophones.
Lokace se présente maintenant comme un portail avec des services : e-mail gratuit avec Caramail, actualité, météo, emploi, magazines en ligne produits par l'équipe éditoriale d'Infonie, liaison avec la librairie Alapage.

Lokace a été racheté par la société Infonie et comptabilisait 2,5 millions de pages vues en septembre 1998.
En complément Lokace propose l'annuaire thématique de MSN France.

 Recherche

Lokace propose deux modes de recherche complémentaires :

  • la recherche par mots-clefs portant sur les textes complets,
  • le classement des sites par catégories et sous-catégories : l'information a été classée, mais cette section ne présente qu'une toute petite partie des informations contenues dans la base de données de Lokace.

Lokace effectue sa recherche en tenant compte du masculin, du féminin, du singulier et du pluriel des mots. Le bouton recherche avancée permet d'indiquer quels sont les termes qui doivent obligatoirement se trouver dans les réponses proposées, de spécifier certains termes susceptibles d'être pris en compte et d'autres termes à ignorer absolument.
Elle vous permet également de restreindre une recherche à un site donné en précisant l'adresse de ce site dans la zone correspondante.
On peut utiliser directement ces options lors d'une recherche standard en ajoutant le signe + devant les mots devant obligatoirement figurer dans les réponses et le signe - devant les mots à ignorer.

Lokace annonce la prise en compte des chiffres et des mots d'une ou deux lettres, et l'implémentation de la version bêta 0 d'un "moteur conceptuel", qui permettrait d'accroître la pertinence des réponses en proposant notamment à l'utilisateur de préciser son champ de recherche.

 Résultats

Les résultats donnent l'adresse des documents suivie des premières lignes du document. Le nombre de mots de la question se retrouvant dans la réponse est indiqué ainsi que le pourcentage de la pertinence du document par rapport à votre recherche.

Ils sont triés par ordre décroissant d'intérêt. Les premières réponses sont celles qui contiennent tous les termes que l'on a saisi puis elles sont suivies de celles qui ne contiennent que certains des mots de la demande.

Il est possible de parcourir des catégories : 12 au départ vers plus de 3000. Mais les documents sont classés automatiquement et le résultat n'est pas toujours correct.


Voila

 taille : 6,5 M de pages FR

 MAJ : chaque semaine

 Mots vides : OUI

 Date : NON

Lancé en juillet 98, Voila est la suite du moteur Echo racheté par France Telecom.
Sous forme de portail Voilà regroupe un moteur de recherche sur le web francophone, un annuaire intégré (QuiQuoiOù), les actualités, la météo et des informations bousières. Les annuaires Pages Jaunes, Pages Blanches, Les marques, Les rues commerçantes et Les pages pro complètent l'offre pour la France.

Le service s'internationalise avec l'ouverture de Voila.com qui propose une recherche mondiale et pour 5 pays en plus de la France.

 Recherche

Voila recherche des documents dans une base de données de plus de 6 500 000 de pages web en langue française mise à jour chaque semaine. Les sites inscrits manuellement sont indexés sous 15 jours. Il offre un formulaire simple et un formulaire recherche avancée.
On peut préciser sa question en indiquant dans document avec de rechercher des documents du web contenant des scripts JAVA, des FRAMES, un document de type IMAGE, SON ou VIDEO, fichier MAC (hqx, sit ...), PC (exe ...) ..., des fichiers d'un type particulier (PDF, DOC, ...) en tapant leur extension en majuscule lors de la recherche par mot clé.
Les mots peuvent être déclinés en tenant compte de règles du français grâce à l'option orthographe stricte ou voisine.

 Résultats

Si il y a lieu, on trouve en tête les résultats présents dans l'annuaire QuiQuoiOù et identifiés par une loupe.
Le classement des réponses tient compte du contenu des balises META et de la place des mots dans le document HTML.

On peut limiter l'affichage aux réponses indexées dans les 15 derniers jours ou choisir un regroupement par sites. Il effectue aussi une recherche par mots-clé dans une base de plus de 200 000 adresses e-mail francophones. La page d'accueil affiche les catégories principales de l'annuaire QuiQuoiOù.

Enfin Les pages News permettent de retrouver des messages échangés dans les groupes de News francophones.

Le service est complété par les sélections hebdomadaires de sites.