Lancé en 1996, l'index pointe vers plus de 30 millions de pages européennes ce qui le placerait en tête. On peut soumettre un site mais EuroFerret a un robot
nommé Claude qui recherche automatiqement les
données. Les résultats sont triés et très complets : EuroFerret propose ensuite deux manières d'améliorer sa recherche :
Muscat propose sa technologie pour indexer des documents sur un intranet.
La création d'EuroSeek date du printemps 1996 et son ouverture au public du 27 septembre 1996. C'est un moteur de redcherche EuroSeek qui dispose d'une interface pour presque toutes les langues euroopéennes. On dispose d'un formulaire simple d'interrogation : Il suffit de taper les mots de recherche. On peut utiliser les opérateurs AND et OR et grouper les termes à l'aide de parenthèses. Les guillemets servent à retrouver un mot composé (phrase) et à échapper à certains caractères/mots qui ont une signification particulière, tels que AND et OR. La casse n'est pas prise en compte. Deux limites sont proposées :
Les résultats assez complets sont présentés de manière agréable : Titre, URL, petit résumé, date, langue, région. EuroSeek est intéressant pour les deux limites cependant on ne connaît pas la taille de la base de données.
Yelloweb Europe est un guide Web strictement européen. Il a été créé par une équipe européenne de professionnels du secteur de l'édition et lancé en février 1996. Ses auteurs l'ont surnommé le "Yahoo" européen ce qui indique bien leur démarche. L'interface est multi-langue : français, allemand, anglais, espagnol, italien et néerlandais et russe. Trois types de recherche sont disponibles:
En complément et selon le même principe, on a accès à :
Trouver une adresse électronique a été et continue à être un problème. Aucun annuaire général n'existe mais on dispose maintenant de plusieurs types d'outils. Une solution consiste à alimenter une base de données en extrayant les adresses des messages de News ou des pages des serveurs W3 et en proposant l'inscription volontaire. Actuellement ces services atteignent plus de 7 millions d'adresses. Compte tenu des erreurs, fausses adresses ou adresses plus valables, on est loin d'atteindre l'exhaustivité, Récemment a été adopté un
protocole d'échange d'information entre annuaires :
il s'agit de LDAP (Protocole allégé
d'accès aux répertoires) issu de la norme
X500. ANNU est l'annuaire français des abonnés au
téléphone. Le fichier, mis à jour
régulièrement, recense les abonnés au
téléphone sauf ceux inscrits en liste
rouge. Annuaire téléphonique inversé
couvrant plusieurs pays européens dont la France. L'objectif de Bigfoot était de concevoir le
service le plus facile d'accès, le plus complet, le
plus convivial et connaissant la croissance la plus rapide
du Net. Des millions de fiches sont à votre
disposition pour effectuer vos recherches. Les formulaires
simples et avancés sont succints. Le système
élargit la question en tronquant les termes lorsque
la recherche stricte donne aucun résultat. Yahoo! People Search et en français Créé en 1994, Four11 a été
acheté par Yahoo en octobre 97. InfoSpace se présente comme l'annuaire le plus
complet au niveau des adresses de toute nature. Ce service
propose différentes recherches pour retrouver
adresses et numéros de téléphone
classées par catégories : Le masque de saisie est réduit à 4 champs :
Nom (au mois 3 caractères), Prénom,
Organisation et domaine. IAF différencie minuscules
et majuscules. La troncature est disponible à gauche,
à l'interieur et à droite. IAF alimente sa
base de données en extrayant les adresses des
messages échangés dans les News et par l'ajout
volontaire. Pages Jaunes de France Telecom propose cinq annuaires :
Seul le nom de famille est requis dans le formulaire
simple comme dans le formulaire avancé qui propose en
plus une limite par affiliations essentiellement
américaines. WhoWhere a été racheté par Lycos. Ce service propose la recherche d'adresses électroniques, de numéros de téléphone personnels et d'entreprises pour les Etats Unis et de sites d'entreprises sur Internet. Le formulaire change en fonction du type de recherche mais reste très simple.
Les conférences électroniques sont une
source d'informations ponctuelles. Elles permettent aussi un
suivi, une veille sur un sujet. Mais le flot ininterrompu et
massif de messages rend leur utilisation difficile. Les Listes de diffusion francophones Trois accès sont proposés :
Une recherche par index complète le
repérage de Listes. USENET et Les serveurs de News Une recherche par index est disponible. C'est un répertoire de listes de discussion : plus
de 90 000 listes gérées sur plus de 2400
serveurs. Il est aussi possible de partir d'un des 15 thèmes sélectionnés par Liszt. Un répertoire de Groupes de News offre une recherche :
Attention votre serveur de News ne contient pas
forcément tous les groupes trouvés. Ce service permet de retrouver des listes de discussion :
les listes signalées sont classées,
caractérisées (Safe for Kids, For People Over
13, For People Over 17, For People Over 21) et la
modération éventuelle est signalée. Un
formulaire de Recherche avancée permet une recherche
par mots-clès, par langue et par type de public. On
peut aussi en créer facilement. Service complet, il facilite l'identification et
l'interrogation de plus de 15 000 newsgroups, 100 000
listes de discusion et 25 000 forums web. La fonction browse affiche les grandes
hiérarchies des groupes de News et les listes de
discussion par ordre alphabétique. Ce service maintient deux listes alphabétiques de l'ensemble des Listes de discussion et des Groupes de News publics. Il est aussi possible d'interroger un index.
Les moteurs de recherche ont apporté une aide précieuse dans la recherche d'information. Mais leur fonctionnement est très "mécanique" : nombre de requêtes échouent, le bruit est important. D'autres méthodes sont explorées.
Les principes de fonctionnementOn appelle filtrage d'information le processus permettant, à partir d'un large volume d'informations dynamiques, d'extraire et de présenter les seuls documents intéressant un utilisateur qui a décrit ses centres d'intérêt.Les informations dites dynamiques proviennent de sources différentes et sont sujettes à des modifications au cours du temps. Un système de filtrage est donc un assistant personnel qui lit et filtre les documents que l'on reçoit sur l'Internet. Il doit être capable d'identifier uniquement les textes qui traitent des sujets intéressant l'utilisateur. Une des premières formes de filtrage a été la DSI (Diffusion Sélective de l'Information) qui consiste à envoyer à intervalle régulier l'ensemble des références nouvelles répondant à une requête préalablement enregistrée. La DSI n'est pas sans défaut, elle peut difficile être implémentée telle quelle sur les systèmes de messagerie, étant donné le grand volume d'information qui circule dans l'Internet. Les recherches actuelles sont orientés vers des systèmes automatiques dits "intelligents". Pour des raisons pratiques (structuration des documents), les premiers travaux concernaient surtout les News. Les recherches actuelles sont plutôt orientées vers les services W3. Les principales caractéristiques d'un système de filtrage :
On s'oriente actuellement vers le modèle dit de filtrage par collaboration (collaborative filtering ). Les utilisateurs d'un système d'informations participent activement à l'alimentation d'une base de données gérée par le filtre contenant des informations sur eux-mêmes, et sur les documents qu'ils ont consultés. L'utilisateur donne son avis sur les documents lus et ces réactions peuvent être annotées et être consultées par d'autres. Ainsi on établit des relations document-document et document-utilisateur. Le filtre dispose donc d'informations variées sur un document et peut par exemple proposer à un utilisateur la liste des personnes travaillant sur le même sujet et lui sélectionner les documents qu'elles ont consultés. Si parmi ces documents certains sont pertinents, le filtre pourra trouver l'ensemble des documents ayant les mêmes annotations.
Le filtrage en ligne
|
Les fichiers sur serveurs FTP |
Nous conseillons fortement l'utilisation des sites suivants qui permettent de rechercher un logiciel par son nom, sa description et la plateforme matérielle.
On donne un terme et on précise le système
d'exploitation ou choisir dans une catégorie.
Chaque logiciel a reçu une appréciation :
Nouveau, Bijou ...
Enfin on peut se constituer un lot de fichiers à
télédécharger.
Ce site affirme signaler 75 millions de fichiers
répartis sur 5 000 serveurs.
On peut limiter une recherche en précisant un nom de
domaine.
Dans une base de plus de 250 000 fichiers, ce service propose :
Dans ce cas après avoir indiqué le
système d'exploitation concerné, on donne
quelques termes combinés par Et et SAUF si
nécessaire. On peut limiter par date. La recherche se
fait dans le texte de description qui accompagne tout
logiciel et dans le nom du produit.
HotFiles fait partie de l'ensemble des outils de
recherche proposé par le groupe d'édition Ziff
Davies.
Ce site est une mine de logiciels permettant d'exploiter au mieux les ressources de l'Internet. De nombreux miroirs permettent un télédéchargement sans problème.
Les méta-moteurs clients |
De nombreux logiciels à installer sur son poste de
travail permettent de localiser des documents
répondant à une question et de
télédécharger le contenu des sites de
manière plus ou moins complète sur son disque
dur pour les consulter ensuite hors ligne. Cette famille de
logiciels est en plein essor et les produits nouveaux sont
nombreux.
Copernic Les recherches sont
lancées simultanément sur plus de 120 sources
d'information regroupées en 17 canaux. Il affiche les
résultats au fur et à mesure qu'il les trouve.
Pour chacun apparaît le titre, une description, l'URL,
le nombre d'occurrences, la date de la recherche,
"trouvé par", ainsi que l'état (accessible,
inaccessible, nouveau...). Classés par ordre de
pertinence, les doublons et les liens périmés
sont automatiquement éliminés. On peut
interroger par mots-clés les résultats
obtenus. Pour la consultation hors ligne, il est possible de
téléchargement tout ou partie des documents
trouvés. Un historique détaillé des
résultats, classés dans des dossiers, peut
être crée et mis à jour au fur et
à mesure.
DigOut4U Développé par
la société française ARISEM ce
méta-moteur est capable de récupérer
les pages web dont le contenu sémantique correspond
à une requête tapée en langage naturel
(plus précis que les mots-clés selon les
concepteurs). Un moteur díanalyse du langage naturel,
basé sur la représentation des structures
sémantiques traduit la demande en mots-clés,
le logiciel interroge les différents moteurs de
recherche (liste de moteurs
présélectionnés qu'il est possible de
compléter), compile les résultats en analysant
sémantiquement le contenu des pages, ainsi que les
liens qu'elles contiennent. Pour chaque moteur
utilisé, DigOut4U retient les cinq premières
pages de résultats, élimine les doublons et
présente les résultats par ordre
décroissant de pertinence. Les documents s'affichent
sur un écran de présentation avec pour chaque
lien: le titre, le taux de pertinence, l'URL, le nombre
d'occurrences, le nombres de liens hypertextes contenu dans
le site, le temps mis par le logiciel pour
récupérer la page ainsi que le moteur de
recherche utilisé. Le système peut capa-ble de
travailler en tâche de fond.
Les prix sont prohibitifs surtout comparés aux
concurrents.
Inforia Quest Ce méta-moteur
peut interroger simultanément plus de 100 moteurs de
recherche sur le Web et les newsgroups ainsi que des sites
d'informations comprenant des fonctions de recherche (ex:
CNN News). Il autorise des requêtes complexes
basées sur les opérateurs booléens, la
recherche en lan-gage naturel et la recherche floue. Les
résultats de la recherche sont triés (les
liens dupliqués sont éliminés),
hiérarchisés, et sauvegardés sur
demande. Ils s'affichent au fur et à mesure et IQ
peut travailler en "tâche de fond". Les sources
peuvent être sélectionnées parmi des
domaines de recherche, et un profil de recherche peut
être constitué.
IQ 98 coûte 25 dollars et peut-être
essayée gratuitement.
MemoWeb Développé par
GOTO Software, il permet la capture de pages web au sens
large (images, applets, VRML, FTP), la gestion
complète de la connexion (déconnexion
automatique, proxies), les captures configurables (filtres
d'inclusion/exclusion, choix de profondeur, choix des types
de fichiers ou de domaines).
Vendu 299 F ht, une version d'essai gratuite peut être
téléchargée sur le site.
Umap Umap est
développé par la société
française Trivium. Il interroge 16 moteurs de
recherche, élimine les doublons et cartographie les
réponses. La "carte dynamique" permet de visualiser
la nature, le contexte et la cohérence d'un ensemble
de textes. Elle requiert l'intervention active de
l'utilisateur pour la hiérarchisation des mots
significatifs contenus dans les textes. En effet, au fur et
à mesure de la recherche sur le Web, le logiciel se
constitue un dictionnaire de mots-clés. L'utilisateur
peut sélectionner les mots qui se rapprochent de sa
recherche et obtient une nouvelle carte de
réponses.
Vendu 320 F ht, une version d'évaluation peut
être télédéchargée.
Web
Seeker et Web Whacker On peut choisir les annuaires
et moteurs de recherche à interroger parmi plus d'une
centaine. La question est une liste de mots combinés
par un ET ou un OU. Il présente donc les limites de
ce type d'outils. Son intérêt particulier
réside dans la possibilité d'établir un
planning de télédéchargement en
indiquant jours et heures (la nuit par exemple).
Environ 50 $ l'un.