AltaVista
taille : 140 M de pages
|
MAJ : 1 j à 6 semaines
|
Mots vides : OUI
|
Date : OUI
|
AltaVista a été lancé par la
société Digital Equipment en décembre
1995, société rachetée par Compaq en
1998.
Il se veut le plus complet des moteurs de recherche et
effectue une indexation du texte intégral : plus de
140 millions de pages trouvées dans les serveurs Web.
L'index est réactualisé en fonction de la
stabilité des sites, déterminée par le
robot Scooter à partir des visites
précédentes.
D'autre part il indexe en temps réel 4 millions de
messages de plus de 14 000 groupes de News.
Alta Vista offre deux modes de recherche pour
interroger les serveurs web ou les groupes USENET :
- recherche simple : Pas
d'opérateurs booléens, la question est une
suite de mots simples ou composés (phrase). On
dispose des signes + pour imposer un terme, - pour
l'exclure, des guillemets pour entourer un mot
composé. Le système est sensible aux
minuscules et majuscules. Il ignore les mots trop
fréquents. On dispose d'une limite par langue des
documents. Les résultats sont triés par
pertinence.
- recherche avancée :
il faut obligatoirement utiliser les opérateurs
AND, OR, NOT ou NEAR en majuscule pour combiner plusieurs
termes. Les parenthèses sont utilisées
lorsqu'il y a plusieurs opérateurs.
Des guillemets permettent d'encadrer un mot
composé.
Un signe + accolé à gauche d'un terme le
déclare obligatoire, alors que le signe - indique
un terme à refuser.
Le logiciel tient compte de la casse des
caractères.
Il est possible de rechercher tous les documents ayant un
lien vers son serveur web.
Il tient compte aussi de la structure des documents en
s'appuyant sur les balises HTML :
On peut limiter la recherche aux mots du titre, aux URL,
aux liens contenus dans un document.
Enfin la limite par date d'entrée des documents
dans la base de données est présente.
AltaVista vérifie l'orthographe des termes de
recherche pour l'anglais, le français, l'espagnol et
l'italien.
Ce service offre aussi des recherches
spécialisées :
Keyword
|
Function
|
anchor:text
|
Trouve les pages contenant le terme dans un lien
hypertexte
|
applet:class
|
Trouve les pages contenant un applet Java
|
domain:domainname
|
Trouve les pages contenant le domaine
spécifié
|
host:name
|
Trouve les pages d'un ordinateur
|
image:filename
|
Trouve les pages contenant des images dont le
nom de fichier contient le terme
|
link:URLtext
|
Trouve les pages pointant vers l'URL
spécifiée
|
text:text
|
Trouve les pages contenant le texte
spécifié n'importe où
|
title:text
|
Trouve les pages contenant le texte dans le
titre de page
|
url:text
|
Trouve les pages contenant ayant le terme dans
les URL
|
Un choix de 25 langues permet de limiter les
résultats d'une recherche aux seules pages
publiées dans la langue spécifiée.
"AltaVista knows the answers of these questions" :
pour certaines questions, AltaVista renvoie des
résultats issus de l'outil
Ask
Jeeves. Ce dernier fournit des réponses
précises à 7 000 000 de questions
préparées par 30 professionnels.
Utilisez de préférence le formulaire de
recherche avancée.
Les documents sont triés par pertinence en
fonction des termes du champ ranking.
Le format d'affichage donne un titre ( lien hypertexte vers
le site), l'URL, une douzaine de mots du texte, la taille du
fichier, la langue du document, la date d'entrée dans
la base de données d'Alta Vista .
Fin 98 AltaVista a lancé
Photo Finder, un outil de recherche
d'images.
En partenariat avec la société d'indexation
d'images et de vidéos Virage, Compaq a
développé le moteur AltaVista Photo Finder.
Désormais accessible sur AltaVista, l'AV Photo Finder
cherche dans un index de plus de 10 millions d'images et
permet de sélectionner le type d'image
désiré (photos couleurs, noir et blanc,
illustrations, tableaux...). Il offre une option de
recherche sur le Web ainsi que sur des catalogues.
La syntaxe est la même que pour la recherche dans le
web.
En cliquant sur About this picture on obtient des
détails sur l'image : titre, taille.
En cliquant sur Visually Similar on lance une
recherche d'images possédant des
caratèristiques proches.
AV Family Filter filtre les images de mauvais goût.
Excite et
Excite
France
taille : 55 M de pages
|
MAJ : 1 j à 6 semaines
|
Mots vides : OUI
|
Date : NON
|
Lancé fin 95, Excite a proposé une nouvelle
version de son moteur de recherche et revendique la
première place en volume : la base de données
pointe vers plus de 55 millions de pages Web. Le service
explore aussi les deux dernières semaines de 10 000
groupes de News.
Excite est localisé dans 9 pays.
La base de données est mise à jour chaque
semaine.
Infos du jour, revues de sites, liens vers d'autres moteurs
de recherche complètent le service.
Les visiteurs peuvent personnaliser le service dès la
page d'accueil et choisir les nouvelles et sources
d'information qui apparaîtront automatiquement
à chaque visite sur le site. Nouvelles, sports,
météo locale, cote de la Bourse et horoscope
figurent parmi les différentes options possibles du
service nommé All About You.
Excite a acquis Magellan en juillet 96 et
WebCrawler en novembre 96. Ces derniers
continuent en tant que services séparés.
Global Excite pointe vers l'Australie, la Chine, la
France, l'Allemagne, l'Italie, le Japon, la Hollande, la
Suède et U.K.
Excite utilise une méthode dite "Intelligent
Concept Extraction" pour analyser un site et
déterminer les mots-clès à indexer, en
cherchant des concepts plutôt que des mots. Il utilise
un algorithme pour trouver des thèmes, il n'indexe
donc pas le texte complet et ne tient pas compte des balises
META. Le concept de chaînes (channels) structure un
répertoire sélectif de 140 000 sites. Une
"chaîne" fédère dans une même page
diverses informations relatives à un même
thème.
La page d'accueil est maintenant très
chargée mais le formulaire de recherche simple est
situé en haut d'écran.
La recherche se fait soit par mots-clès, soit par
concepts :
La première méthode ne ramène que les
documents contenant les termes de la recherche alors que la
seconde peut donner des documents contenant de l'information
liée à ces termes. Le producteur
prétend que les premiers documents sont identiques
dans les deux cas.
Le moteur utilise une technique dite floue (fuzzy AND) en
combinant les opérateurs AND et OR pour une recherche
sur plusieurs termes.
Une recherche plus précise est possible par
Power Search.
On dispose alors d'un formulaire permettant d'éviter
l'utilisation explicite des opérateurs
booléens et des parenthèses. C'est une
approche opposée à celle d'AltaVista.
Les résultats sont classés par ordre
de pertinence, avec un titre, un résumé mais
sans l'URL. Il est possible de cliquer sur un icône
pour relancer la recherche vers des documents similaires. Il
est possible de trier les résultats par site web.
Le moteur de recherche Excite est en passe de
développer une nouvelle interface graphique de
présentation des résultats de recherche en 3D.
Développé en Java, le site devrait permettre
de visualiser sur une seule page les réponses
principales au centre, et les concepts approchant en orbite.
Google
taille : 100 M de pages
|
MAJ : chaque semaine
|
Mots vides : NON
|
Date : NON
|
Dernier né des moteurs de recherche de
l'Université de Stanford, Google grossit très
vite et se distingue par deux aspects :
- son mode de classement des résultats
(PageRank)
- le fait qu'il archive toutes les pages html
indexées
Google est le seul outil qui garde sur disque l'ensemble
des pages qu'il indexe, constituant ainsi un système
d'archivage inexistant par ailleurs.
L'interface est des plus simples et se distingue des
pages d'accueil des portails où il est souvent
difficile de s'y retrouver. La question est une suite de
termes séparés par un espace.
L'opérateur par défaut est le AND et on
dispose :
- des guillemets pour rechercher sur une expression
- du signe - correspondant à l'opérateur
SAUF
Google invite à affiner une recherche en ajoutant
d'autres termes dans la requête. Il n'est pas possible
de rechercher dans un sous ensemble de la base de
données.
La barre rouge exprimée en pourcentage
correspond au classement du document basé sur le
nombre de liens pointant sur lui. La barre devient mauve
pour les autres résultats d'un même serveur,
car ces derniers sont regroupés. Le tri ne
dépend pas des mots de la question contrairement aux
autres moteurs de recherche.
HotBot
taille : 110 M de pages
|
MAJ : 1 j à 2 semaines
|
Mots vides : OUI
|
Date : OUI
|
Lancé en mai 1996, ce service est un partenariat
entre le magazine électronique HotWired et
l'Université de Berkeley qui utilise son moteur de
recherche Inktomi, mais les deux services sont
différents.
Inktomi gère la base de données de nombreux
services tels HotBot, NBC's Snap!, Yahoo!, Disney Internet
Guide (DIG), @Home Network, N2H2, GoTo.com, Anzwers en
Australie, Nippon Telegraph and Telephone's (NTT), Goo site
au Japon, RadarUOL au Brésil et Southam au Canada.
Hobot vient d'être racheté par Lycos fin
98.
La base de données pointe vers plus de 110 millions
de documents.
HotBot indexe le texte complet des pages HTML mais ignore
certains termes communs comme web.
On utilisera ici aussi de préférence
le mode
More serarch options pour formuler
ses réquêtes.
On bénéficie ainsi de plusieurs
critères rarement trouvés ailleurs :
- un choix parmi 9 langues
- une limite par date d'entrée dans la base
permet, comme sur AltaVista, d'envisager des recherches
à intervalle régulier sur une même
question.
- l'option media type permet de préciser
la recherche d'une image, d'un document audio ou de
fichiers de type VRML, Acrobat, JavaScript, Java etc...
- la localisation géographique des sites
recherchés
- la possibilité de recherche de mots proches,
à réserver à l'anglais.
Le classement des résultats donnés par
le score, repose sur les critères suivants par ordre
d'importance :
mots du titre, mots inclus dans les balises META et
fréquence des mots dans le corps du texte.
Hotbot a introduit la technologie
Direct
Hit qui améliore la sélection de sites
pertinents en analysant les choix effectués par les
millions d'utilisateurs.
Hotbot a signé un partenariat avec
DejaNews comme
fournisseur de contenu sur les groupes de discussions
InfoSeek et
InfoSeek france
taille : 50 M de pages
|
MAJ : 1 j à 8 semaines
|
Mots vides : NON
|
Date : OUI
|
InfoSeek a été lancé début
95. Au printemps 96, Ultraseek a profondément fait
évoluer ce service en passant de 2 millions à
50 millions d'URL. Il permet de rechercher l'information
dans les serveurs web, Gopher, FTP, les groupes de News (FAQ
comprises) et des sites évalués. La mise
à jour se fait toutes les une à deux semaines.
InfoSeek est localisé dans 11 pays. Infoseek
indexe le texte intégral des documents trouvés
sur les serveurs visités.
Le traitement de la question présente des
caractéristiques intéressantes :
- Infoseek recherche automatiquement les variations des
termes grâce à une troncature implicite
à droite (exemple : photography, photographer,
photographs)
- l'ordre des termes a son importance : c'est
indispensable pour rechercher des mots composés ou
des morceaux de phrases.
En recherche simple, on pose une question en entrant les
termes de recherche sans opérateur booléen ni
caractère de troncature. Le logiciel ne recherche pas
les mots vides. Cependant les majuscules sont prises en
compte : c'est utile pour la recherche des noms propres.
Pour préciser une question, on utilisera les
règles suivantes :
règle
|
exemple
|
un nom propre : mettre la première lettre
en majuscule
|
Orson Welles
|
deux noms propres : mettre une virgule entre
|
Laurel, Hardy
|
un mot composé : entre guillemets,
proximité large
|
ministère culture
|
séparés par un tiret pour une
proximité forte
|
laser-printer ISO-9000
|
entre crochets si l'ordre est indifférent
|
[WWW search]
|
obligatoirement un mot : coller un signe plus
devant
|
chip +Motorola
|
un mot et éviter un autre : coller un
signe moins devant
|
python -Monty
|
penser aux synonymes
|
CD-ROM, CDROM, cdrom
|
Le résultat d'une recherche est trié
et les documents les plus pertinents apparaissent en
tête.
Les facteurs de tri les plus importants sont :
- les termes de recherche présents dans le titre et
au début du document sont
privilégiés,
- la fréquence des termes de recherche dans le
document.
Cependant la taille de l'Internet conduit souvent
à une liste importante de réponse. InfoSeek
utilise une technique brevetée pour
différencier les pages riches en information des
pages pauvres. De plus il propose une liste de sujets
à explorer en rapport avec la question.
Parallèlement à la recherche directe,
InfoSeek propose 18 catégories ce qui permet
d'interroger un sous-ensemble de la base de données.
Mais ces catégories sont créées
automatiquement par reconnaissance de vocabulaire et ne sont
donc pas toujours très pertinentes.
Northern Light
taille : 80 M de pages
|
MAJ : 2 à 4 semaines
|
Mots vides : NON
|
Date : OUI
|
Ce service, lancé le 12 Août 1997, propose
une recherche dans une base de données de
30 000 000 de pages indexées du web et dans
une "Collection Spéciale" de documents issus de
quelques 5 000 sources (journaux, livres, magazines,
bases de données, dépêches d'agences)
introuvables sur l'Internet. La recherche est gratuite mais
les articles sont payants (1 à 4$). Chaque semaine,
tous les articles d'un des titres de la Collection
Spéciale sont disponible gratuitement.
Dans la recherche simple l'opérateur
AND est implicite. On dispose aussi de OR, NOT et des
parenthèses pour utiliser plusieurs opérateurs
dans la même question.
Une autre syntaxe consiste à placer le signe + ou -
à gauche du terme pour imposer sa présence ou
son absence dans les réponses comme sur d'autres
moteurs de recherche. Enfin on recherche un mot
composé en le mettant entre guillemets.
Power search offre un formulaire
détaillé avec des limites sur date, sources,
sujets et types d'information.
Mais l'aspect novateur est le classement des
documents trouvés dans des dossiers constitués
automatiquement en fonction des réponses. Un dossier
peut lui-même être constitués de
sous-dossiers. Quatre types existent : thèmes, types
de documents, source, langue. Ces renseignements se
retrouvent dans l'affichage de chaque réponse avec la
date de publication.
Dans chaque dossier final, les réponses sont
triées par pertinence.
Pour promouvoir les capacités de recherche de son
moteur, Northern Light vient de lancer un service
spécialisé sur la recherche d'informations
économiques et financières.
Industry Search permet la recherche
de renseignements sur des entreprises dans 26
catégories avec des limitations de dates des
documents et du type d'information : communiqués de
presse, revue de produits, offres d'emploi.
Pinstripe
Pinstripe est le nouveau service lancé en mars 98
par la société canadienne Open Text
Corporation après plusieurs mois de calme plat.
Pinstripe vise l'information des entreprises à la
place d'un moteur généraliste. Il indexe des
sites dans les domaines de la finance, de l'emploi, des
news, du voyage, ainsi que des services (annuaires,
météo, utilitiares, convertisseurs, taux de
change etc...) classées dans 150 rubriques
très précises, pour affiner la recherche au
maximum. Il s'agit de montrer les capacités de la
technologie LiveLink orientée intranet.
On dispose de trois formulaires :
- la recherche dans les catégories
(Slice Search)
- la recherche simple
(Quick Search) avec le choix de
l'opérateur booléen (ET : all of the terms,
OU : any of the terms),
- la recherche avancée
(Power Search) avec le choix entre
opérateurs booléens et opérateurs de
proximité (NEAR et FOLLOWED BY dans la limite de
80 caractères), et la limite de la recherche
à certaines zones des documents.
Les résultats sont complets et contiennent un
titre (lien hypertexte vers la source), un
résumé, la taille du document et l'URL..
Voila
taille : 6,5 M de pages FR
|
MAJ : chaque semaine
|
Mots vides : OUI
|
Date : NON
|
Lancé en juillet 98, Voila est la suite du moteur
Echo racheté par France Telecom.
Sous forme de portail Voilà regroupe un moteur
de recherche sur le web francophone, un annuaire
intégré (QuiQuoiOù), les
actualités, la météo et des
informations bousières. Les annuaires
Pages
Jaunes, Pages Blanches, Les marques, Les rues
commerçantes et Les pages pro complètent
l'offre pour la France.
Le service s'internationalise avec l'ouverture de
Voila.com qui propose une recherche
mondiale et pour 5 pays en plus de la France.
Voila recherche des documents dans une base de
données de plus de 6 500 000 de pages web
en langue française mise à jour chaque
semaine. Les sites inscrits manuellement sont indexés
sous 15 jours.
Voila offre un formulaire simple et un formulaire
recherche avancée.
On peut préciser sa question en indiquant dans
document avec de rechercher des documents du web
contenant des scripts JAVA, des FRAMES, un document de type
IMAGE, SON ou VIDEO, fichier MAC (hqx, sit ...), PC (exe
...) ..., des fichiers d'un type particulier (PDF, DOC, ...)
en tapant leur extension en majuscule lors de la recherche
par mot clé.
Les mots peuvent être déclinés en
tenant compte de règles du français
grâce à l'option orthographe stricte ou
voisine.
Si il y a lieu, on trouve en tête les
résultats présents dans l'annuaire
QuiQuoiOù et identifiés par une loupe. Le
classement des réponses tient compte du contenu des
balises META et de la place des mots dans le document HTML.
On peut limiter l'affichage aux réponses
indexées dans les 15 derniers jours ou choisir un
regroupement par sites. Voila effectue aussi une recherche
par mots-clé dans une base de plus de 200 000
adresses e-mail francophones.
La page d'accueil affiche les catégories
principales de l'annuaire QuiQuoiOù.
Enfin Les pages News permettent de
retrouver des messages échangés dans les
groupes de News francophones.
Le service est complété par les
sélections hebdomadaires de sites.
|