AltaVista

 taille : 140 M de pages

 MAJ : 1 j à 6 semaines

 Mots vides : OUI

 Date : OUI

AltaVista a été lancé par la société Digital Equipment en décembre 1995, société rachetée par Compaq en 1998.
Il se veut le plus complet des moteurs de recherche et effectue une indexation du texte intégral : plus de 140 millions de pages trouvées dans les serveurs Web. L'index est réactualisé en fonction de la stabilité des sites, déterminée par le robot Scooter à partir des visites précédentes.
D'autre part il indexe en temps réel 4 millions de messages de plus de 14 000 groupes de News.

 Recherche

Alta Vista offre deux modes de recherche pour interroger les serveurs web ou les groupes USENET :

     
  • recherche simple : Pas d'opérateurs booléens, la question est une suite de mots simples ou composés (phrase). On dispose des signes + pour imposer un terme, - pour l'exclure, des guillemets pour entourer un mot composé. Le système est sensible aux minuscules et majuscules. Il ignore les mots trop fréquents. On dispose d'une limite par langue des documents. Les résultats sont triés par pertinence.
  • recherche avancée :
    il faut obligatoirement utiliser les opérateurs AND, OR, NOT ou NEAR en majuscule pour combiner plusieurs termes. Les parenthèses sont utilisées lorsqu'il y a plusieurs opérateurs.
    Des guillemets permettent d'encadrer un mot composé.
    Un signe + accolé à gauche d'un terme le déclare obligatoire, alors que le signe - indique un terme à refuser.
    Le logiciel tient compte de la casse des caractères.
    Il est possible de rechercher tous les documents ayant un lien vers son serveur web.
    Il tient compte aussi de la structure des documents en s'appuyant sur les balises HTML :
    On peut limiter la recherche aux mots du titre, aux URL, aux liens contenus dans un document.
    Enfin la limite par date d'entrée des documents dans la base de données est présente.

AltaVista vérifie l'orthographe des termes de recherche pour l'anglais, le français, l'espagnol et l'italien.

Ce service offre aussi des recherches spécialisées :

Keyword

Function

anchor:text

Trouve les pages contenant le terme dans un lien hypertexte

applet:class

Trouve les pages contenant un applet Java

domain:domainname

Trouve les pages contenant le domaine spécifié

host:name

Trouve les pages d'un ordinateur

image:filename

Trouve les pages contenant des images dont le nom de fichier contient le terme

link:URLtext

Trouve les pages pointant vers l'URL spécifiée

text:text

Trouve les pages contenant le texte spécifié n'importe où

title:text

Trouve les pages contenant le texte dans le titre de page

url:text

Trouve les pages contenant ayant le terme dans les URL

Un choix de 25 langues permet de limiter les résultats d'une recherche aux seules pages publiées dans la langue spécifiée.

"AltaVista knows the answers of these questions" : pour certaines questions, AltaVista renvoie des résultats issus de l'outil Ask Jeeves. Ce dernier fournit des réponses précises à 7 000 000 de questions préparées par 30 professionnels.
Utilisez de préférence le formulaire de recherche avancée.

 Résultats

Les documents sont triés par pertinence en fonction des termes du champ ranking.
Le format d'affichage donne un titre ( lien hypertexte vers le site), l'URL, une douzaine de mots du texte, la taille du fichier, la langue du document, la date d'entrée dans la base de données d'Alta Vista .

 

Fin 98 AltaVista a lancé Photo Finder, un outil de recherche d'images.

En partenariat avec la société d'indexation d'images et de vidéos Virage, Compaq a développé le moteur AltaVista Photo Finder. Désormais accessible sur AltaVista, l'AV Photo Finder cherche dans un index de plus de 10 millions d'images et permet de sélectionner le type d'image désiré (photos couleurs, noir et blanc, illustrations, tableaux...). Il offre une option de recherche sur le Web ainsi que sur des catalogues.
La syntaxe est la même que pour la recherche dans le web.

En cliquant sur About this picture on obtient des détails sur l'image : titre, taille.
En cliquant sur Visually Similar on lance une recherche d'images possédant des caratèristiques proches.
AV Family Filter filtre les images de mauvais goût.


Excite et Excite France

 taille : 55 M de pages

 MAJ : 1 j à 6 semaines

 Mots vides : OUI

 Date : NON

Lancé fin 95, Excite a proposé une nouvelle version de son moteur de recherche et revendique la première place en volume : la base de données pointe vers plus de 55 millions de pages Web. Le service explore aussi les deux dernières semaines de 10 000 groupes de News.
Excite est localisé dans 9 pays.

La base de données est mise à jour chaque semaine.
Infos du jour, revues de sites, liens vers d'autres moteurs de recherche complètent le service.
Les visiteurs peuvent personnaliser le service dès la page d'accueil et choisir les nouvelles et sources d'information qui apparaîtront automatiquement à chaque visite sur le site. Nouvelles, sports, météo locale, cote de la Bourse et horoscope figurent parmi les différentes options possibles du service nommé All About You.

Excite a acquis Magellan en juillet 96 et WebCrawler en novembre 96. Ces derniers continuent en tant que services séparés.
Global Excite pointe vers l'Australie, la Chine, la France, l'Allemagne, l'Italie, le Japon, la Hollande, la Suède et U.K.

Excite utilise une méthode dite "Intelligent Concept Extraction" pour analyser un site et déterminer les mots-clès à indexer, en cherchant des concepts plutôt que des mots. Il utilise un algorithme pour trouver des thèmes, il n'indexe donc pas le texte complet et ne tient pas compte des balises META. Le concept de chaînes (channels) structure un répertoire sélectif de 140 000 sites. Une "chaîne" fédère dans une même page diverses informations relatives à un même thème.

 Recherche

La page d'accueil est maintenant très chargée mais le formulaire de recherche simple est situé en haut d'écran.
La recherche se fait soit par mots-clès, soit par concepts :
La première méthode ne ramène que les documents contenant les termes de la recherche alors que la seconde peut donner des documents contenant de l'information liée à ces termes. Le producteur prétend que les premiers documents sont identiques dans les deux cas.

Le moteur utilise une technique dite floue (fuzzy AND) en combinant les opérateurs AND et OR pour une recherche sur plusieurs termes.
Une recherche plus précise est possible par Power Search.
On dispose alors d'un formulaire permettant d'éviter l'utilisation explicite des opérateurs booléens et des parenthèses. C'est une approche opposée à celle d'AltaVista.

 Résultats

Les résultats sont classés par ordre de pertinence, avec un titre, un résumé mais sans l'URL. Il est possible de cliquer sur un icône pour relancer la recherche vers des documents similaires. Il est possible de trier les résultats par site web.

Le moteur de recherche Excite est en passe de développer une nouvelle interface graphique de présentation des résultats de recherche en 3D. Développé en Java, le site devrait permettre de visualiser sur une seule page les réponses principales au centre, et les concepts approchant en orbite.

 


Google

 taille : 100 M de pages

 MAJ : chaque semaine

 Mots vides : NON

 Date : NON

Dernier né des moteurs de recherche de l'Université de Stanford, Google grossit très vite et se distingue par deux aspects :

  • son mode de classement des résultats (PageRank)
  • le fait qu'il archive toutes les pages html indexées

Google est le seul outil qui garde sur disque l'ensemble des pages qu'il indexe, constituant ainsi un système d'archivage inexistant par ailleurs.

 Recherche

L'interface est des plus simples et se distingue des pages d'accueil des portails où il est souvent difficile de s'y retrouver. La question est une suite de termes séparés par un espace. L'opérateur par défaut est le AND et on dispose :

  • des guillemets pour rechercher sur une expression
  • du signe - correspondant à l'opérateur SAUF

Google invite à affiner une recherche en ajoutant d'autres termes dans la requête. Il n'est pas possible de rechercher dans un sous ensemble de la base de données.

 Résultats

La barre rouge exprimée en pourcentage correspond au classement du document basé sur le nombre de liens pointant sur lui. La barre devient mauve pour les autres résultats d'un même serveur, car ces derniers sont regroupés. Le tri ne dépend pas des mots de la question contrairement aux autres moteurs de recherche.


HotBot

 taille : 110 M de pages

 MAJ : 1 j à 2 semaines

 Mots vides : OUI

 Date : OUI

Lancé en mai 1996, ce service est un partenariat entre le magazine électronique HotWired et l'Université de Berkeley qui utilise son moteur de recherche Inktomi, mais les deux services sont différents.
Inktomi gère la base de données de nombreux services tels HotBot, NBC's Snap!, Yahoo!, Disney Internet Guide (DIG), @Home Network, N2H2, GoTo.com, Anzwers en Australie, Nippon Telegraph and Telephone's (NTT), Goo site au Japon, RadarUOL au Brésil et Southam au Canada.

Hobot vient d'être racheté par Lycos fin 98.
La base de données pointe vers plus de 110 millions de documents.

HotBot indexe le texte complet des pages HTML mais ignore certains termes communs comme web.

 Recherche

On utilisera ici aussi de préférence le mode More serarch options pour formuler ses réquêtes.
On bénéficie ainsi de plusieurs critères rarement trouvés ailleurs :

  • un choix parmi 9 langues
  • une limite par date d'entrée dans la base permet, comme sur AltaVista, d'envisager des recherches à intervalle régulier sur une même question.
  • l'option media type permet de préciser la recherche d'une image, d'un document audio ou de fichiers de type VRML, Acrobat, JavaScript, Java etc...
  • la localisation géographique des sites recherchés
  • la possibilité de recherche de mots proches, à réserver à l'anglais.

 Résultats

Le classement des résultats donnés par le score, repose sur les critères suivants par ordre d'importance :
mots du titre, mots inclus dans les balises META et fréquence des mots dans le corps du texte.

 

Hotbot a introduit la technologie Direct Hit qui améliore la sélection de sites pertinents en analysant les choix effectués par les millions d'utilisateurs.
Hotbot a signé un partenariat avec DejaNews comme fournisseur de contenu sur les groupes de discussions


InfoSeek et InfoSeek france

 taille : 50 M de pages

 MAJ : 1 j à 8 semaines

 Mots vides : NON

 Date : OUI

InfoSeek a été lancé début 95. Au printemps 96, Ultraseek a profondément fait évoluer ce service en passant de 2 millions à 50 millions d'URL. Il permet de rechercher l'information dans les serveurs web, Gopher, FTP, les groupes de News (FAQ comprises) et des sites évalués. La mise à jour se fait toutes les une à deux semaines.

InfoSeek est localisé dans 11 pays. Infoseek indexe le texte intégral des documents trouvés sur les serveurs visités.

 Recherche

Le traitement de la question présente des caractéristiques intéressantes :

  • Infoseek recherche automatiquement les variations des termes grâce à une troncature implicite à droite (exemple : photography, photographer, photographs)
  • l'ordre des termes a son importance : c'est indispensable pour rechercher des mots composés ou des morceaux de phrases.

En recherche simple, on pose une question en entrant les termes de recherche sans opérateur booléen ni caractère de troncature. Le logiciel ne recherche pas les mots vides. Cependant les majuscules sont prises en compte : c'est utile pour la recherche des noms propres. Pour préciser une question, on utilisera les règles suivantes :

règle

exemple

un nom propre : mettre la première lettre en majuscule

Orson Welles

deux noms propres : mettre une virgule entre

Laurel, Hardy

un mot composé : entre guillemets, proximité large

ministère culture

séparés par un tiret pour une proximité forte

laser-printer ISO-9000

entre crochets si l'ordre est indifférent

[WWW search]

obligatoirement un mot : coller un signe plus devant

chip +Motorola

un mot et éviter un autre : coller un signe moins devant

python -Monty

penser aux synonymes

CD-ROM, CDROM, cdrom

 Résultats

Le résultat d'une recherche est trié et les documents les plus pertinents apparaissent en tête.
Les facteurs de tri les plus importants sont :
- les termes de recherche présents dans le titre et au début du document sont privilégiés,
- la fréquence des termes de recherche dans le document.

Cependant la taille de l'Internet conduit souvent à une liste importante de réponse. InfoSeek utilise une technique brevetée pour différencier les pages riches en information des pages pauvres. De plus il propose une liste de sujets à explorer en rapport avec la question.

 

Parallèlement à la recherche directe, InfoSeek propose 18 catégories ce qui permet d'interroger un sous-ensemble de la base de données. Mais ces catégories sont créées automatiquement par reconnaissance de vocabulaire et ne sont donc pas toujours très pertinentes.


Northern Light

 taille : 80 M de pages

 MAJ : 2 à 4 semaines

 Mots vides : NON

 Date : OUI

Ce service, lancé le 12 Août 1997, propose une recherche dans une base de données de 30 000 000 de pages indexées du web et dans une "Collection Spéciale" de documents issus de quelques 5 000 sources (journaux, livres, magazines, bases de données, dépêches d'agences) introuvables sur l'Internet. La recherche est gratuite mais les articles sont payants (1 à 4$). Chaque semaine, tous les articles d'un des titres de la Collection Spéciale sont disponible gratuitement.

 Recherche

Dans la recherche simple l'opérateur AND est implicite. On dispose aussi de OR, NOT et des parenthèses pour utiliser plusieurs opérateurs dans la même question.
Une autre syntaxe consiste à placer le signe + ou - à gauche du terme pour imposer sa présence ou son absence dans les réponses comme sur d'autres moteurs de recherche. Enfin on recherche un mot composé en le mettant entre guillemets.
Power search offre un formulaire détaillé avec des limites sur date, sources, sujets et types d'information.

 Résultats

Mais l'aspect novateur est le classement des documents trouvés dans des dossiers constitués automatiquement en fonction des réponses. Un dossier peut lui-même être constitués de sous-dossiers. Quatre types existent : thèmes, types de documents, source, langue. Ces renseignements se retrouvent dans l'affichage de chaque réponse avec la date de publication.
Dans chaque dossier final, les réponses sont triées par pertinence.

Pour promouvoir les capacités de recherche de son moteur, Northern Light vient de lancer un service spécialisé sur la recherche d'informations économiques et financières. Industry Search permet la recherche de renseignements sur des entreprises dans 26 catégories avec des limitations de dates des documents et du type d'information : communiqués de presse, revue de produits, offres d'emploi.


Pinstripe

Pinstripe est le nouveau service lancé en mars 98 par la société canadienne Open Text Corporation après plusieurs mois de calme plat. Pinstripe vise l'information des entreprises à la place d'un moteur généraliste. Il indexe des sites dans les domaines de la finance, de l'emploi, des news, du voyage, ainsi que des services (annuaires, météo, utilitiares, convertisseurs, taux de change etc...) classées dans 150 rubriques très précises, pour affiner la recherche au maximum. Il s'agit de montrer les capacités de la technologie LiveLink orientée intranet.

 Recherche

On dispose de trois formulaires :

  • la recherche dans les catégories (Slice Search)
  • la recherche simple (Quick Search) avec le choix de l'opérateur booléen (ET : all of the terms, OU : any of the terms),
  • la recherche avancée (Power Search) avec le choix entre opérateurs booléens et opérateurs de proximité (NEAR et FOLLOWED BY dans la limite de 80 caractères), et la limite de la recherche à certaines zones des documents.

 Résultats

Les résultats sont complets et contiennent un titre (lien hypertexte vers la source), un résumé, la taille du document et l'URL..


Voila

 taille : 6,5 M de pages FR

 MAJ : chaque semaine

 Mots vides : OUI

 Date : NON

Lancé en juillet 98, Voila est la suite du moteur Echo racheté par France Telecom.
Sous forme de portail Voilà regroupe un moteur de recherche sur le web francophone, un annuaire intégré (QuiQuoiOù), les actualités, la météo et des informations bousières. Les annuaires Pages Jaunes, Pages Blanches, Les marques, Les rues commerçantes et Les pages pro complètent l'offre pour la France.

Le service s'internationalise avec l'ouverture de Voila.com qui propose une recherche mondiale et pour 5 pays en plus de la France.

 Recherche

Voila recherche des documents dans une base de données de plus de 6 500 000 de pages web en langue française mise à jour chaque semaine. Les sites inscrits manuellement sont indexés sous 15 jours.

Voila offre un formulaire simple et un formulaire recherche avancée.
On peut préciser sa question en indiquant dans document avec de rechercher des documents du web contenant des scripts JAVA, des FRAMES, un document de type IMAGE, SON ou VIDEO, fichier MAC (hqx, sit ...), PC (exe ...) ..., des fichiers d'un type particulier (PDF, DOC, ...) en tapant leur extension en majuscule lors de la recherche par mot clé.

Les mots peuvent être déclinés en tenant compte de règles du français grâce à l'option orthographe stricte ou voisine.

 Résultats

Si il y a lieu, on trouve en tête les résultats présents dans l'annuaire QuiQuoiOù et identifiés par une loupe. Le classement des réponses tient compte du contenu des balises META et de la place des mots dans le document HTML. On peut limiter l'affichage aux réponses indexées dans les 15 derniers jours ou choisir un regroupement par sites. Voila effectue aussi une recherche par mots-clé dans une base de plus de 200 000 adresses e-mail francophones.

La page d'accueil affiche les catégories principales de l'annuaire QuiQuoiOù.

Enfin Les pages News permettent de retrouver des messages échangés dans les groupes de News francophones.

Le service est complété par les sélections hebdomadaires de sites.