EuroFerret

Lancé en 1996, l'index pointe vers plus de 30 millions de pages européennes ce qui le placerait en tête.

On peut soumettre un site mais EuroFerret a un robot nommé Claude qui recherche automatiqement les données.
On dispose d'un formulaire simple où l'on peut préciser le pays européen de son choix parmi 33. Si on ne dispose pas d'opérateurs booléens, il est possible d'interroger sur un mot composé en utilisant les guillemets.

Les résultats sont triés et très complets :

EuroFerret propose ensuite deux manières d'améliorer sa recherche :

  • soit en ajoutant des mots extraits des résultats précédents pour préciser la question
  • soit en choisissant une ou des réponse(s) : EuroFerret propose une nouvelle liste de mots

Muscat propose sa technologie pour indexer des documents sur un intranet.


EuroSeek

La création d'EuroSeek date du printemps 1996 et son ouverture au public du 27 septembre 1996. C'est un moteur de redcherche EuroSeek qui dispose d'une interface pour presque toutes les langues euroopéennes.

On dispose d'un formulaire simple d'interrogation : Il suffit de taper les mots de recherche. On peut utiliser les opérateurs AND et OR et grouper les termes à l'aide de parenthèses. Les guillemets servent à retrouver un mot composé (phrase) et à échapper à certains caractères/mots qui ont une signification particulière, tels que AND et OR. La casse n'est pas prise en compte.

Deux limites sont proposées :

  • Accès limité à une région spécifique,
  • Limitation linguistique: EuroSeek ne rapportera que des documents publiés dans la langue spécifiée.

Les résultats assez complets sont présentés de manière agréable : Titre, URL, petit résumé, date, langue, région.

EuroSeek est intéressant pour les deux limites cependant on ne connaît pas la taille de la base de données.


Yelloweb

Yelloweb Europe est un guide Web strictement européen. Il a été créé par une équipe européenne de professionnels du secteur de l'édition et lancé en février 1996. Ses auteurs l'ont surnommé le "Yahoo" européen ce qui indique bien leur démarche. L'interface est multi-langue : français, allemand, anglais, espagnol, italien et néerlandais et russe.

Trois types de recherche sont disponibles:

  • une recherche thématique utilisant les arborescences de la nomenclature YELLOWEB,
  • une recherche rapide par mots clé, s'effectuant sur les titres des services et sur les libellés des rubriques de la nomenclature originale de YELLOWEB,
  • une recherche approfondie permettant d'effectuer aux choix les requêtes sur les adresses Web (URL), sur les noms des services et/ou sur les rubriques YELLOWEB. Elle permet en outre de restreindre les recherches par pays grâce à une liste de 35 pays européens ou d'utiliser des critères additionnels tels que les "ET" et "OU" booléens.

En complément et selon le même principe, on a accès à :


Recherche d'adresses électroniques et de n° de téléphone

Trouver une adresse électronique a été et continue à être un problème. Aucun annuaire général n'existe mais on dispose maintenant de plusieurs types d'outils. Une solution consiste à alimenter une base de données en extrayant les adresses des messages de News ou des pages des serveurs W3 et en proposant l'inscription volontaire. Actuellement ces services atteignent plus de 7 millions d'adresses. Compte tenu des erreurs, fausses adresses ou adresses plus valables, on est loin d'atteindre l'exhaustivité,

Récemment a été adopté un protocole d'échange d'information entre annuaires : il s'agit de LDAP (Protocole allégé d'accès aux répertoires) issu de la norme X500.
Pour les numéros de téléphone, le problème ne se pose pas. Les annuaires existent depuis longtemps sous les noms de Pages blanches pour les numéros personnels et de Pages jaunes pour les entreprises.

ANNU

ANNU est l'annuaire français des abonnés au téléphone. Le fichier, mis à jour régulièrement, recense les abonnés au téléphone sauf ceux inscrits en liste rouge.

EuroInfo

Annuaire téléphonique inversé couvrant plusieurs pays européens dont la France.

BigFoot

L'objectif de Bigfoot était de concevoir le service le plus facile d'accès, le plus complet, le plus convivial et connaissant la croissance la plus rapide du Net. Des millions de fiches sont à votre disposition pour effectuer vos recherches. Les formulaires simples et avancés sont succints. Le système élargit la question en tronquant les termes lorsque la recherche stricte donne aucun résultat.

Yahoo! People Search et en français

Créé en 1994, Four11 a été acheté par Yahoo en octobre 97.
La recherche avancée offre un masque de saisie de 7 champs : Prénom, Nom, Ville, Etat et Pays, Domaine Internet et compagnie. L'expérience montre qu'il vaut mieux ne pas être trop précis. Four11 se présente aussi comme le répertoire de pages blanches (numéros de téléphone américains) le plus important de l'Internet avec plus de 10,5 millions d'inscriptions.

InfoSpace

InfoSpace se présente comme l'annuaire le plus complet au niveau des adresses de toute nature. Ce service propose différentes recherches pour retrouver adresses et numéros de téléphone classées par catégories :
business, sociétés et sites Web dans le monde, personnalités gouvernementales et aussi les amis. On peut aussi trouver des informations gouvernementales américaines, des guides de villes, de l'information commerciale et financière.
Des services internationaux sont proposés pour le Canada, l'Autriche, la Belgique, l'Allemagne, l'Italie, le Luxembourg, les Pays Bas, la Grande Bretagne.

Internet Address Finder

Le masque de saisie est réduit à 4 champs : Nom (au mois 3 caractères), Prénom, Organisation et domaine. IAF différencie minuscules et majuscules. La troncature est disponible à gauche, à l'interieur et à droite. IAF alimente sa base de données en extrayant les adresses des messages échangés dans les News et par l'ajout volontaire.

Pages Jaunes de France Telecom propose cinq annuaires :

  • les pages jaunes correspondant à l'annuaire professionnel
  • les pages blanches
  • les pages marques
  • les rues commerçantes
  • les pages web, option E-mail pour lrechercher dans 200 000 adresses électroniques

Switchboard

Seul le nom de famille est requis dans le formulaire simple comme dans le formulaire avancé qui propose en plus une limite par affiliations essentiellement américaines.

Lycos Network WhoWhere

WhoWhere a été racheté par Lycos. Ce service propose la recherche d'adresses électroniques, de numéros de téléphone personnels et d'entreprises pour les Etats Unis et de sites d'entreprises sur Internet. Le formulaire change en fonction du type de recherche mais reste très simple.


La recherche de Listes et News

Les conférences électroniques sont une source d'informations ponctuelles. Elles permettent aussi un suivi, une veille sur un sujet. Mais le flot ininterrompu et massif de messages rend leur utilisation difficile.
Des systèmes de filtrage des messages commencent à se mettre en place.

Les Listes de diffusion francophones

Trois accès sont proposés :

  • Un classement alphabétique complet
  • Un classement thématique

Une recherche par index complète le repérage de Listes.
Ce site permet de s'abonner, se désabonner et d'interroger les archives.

USENET et Les serveurs de News

Une recherche par index est disponible.

Liszt

C'est un répertoire de listes de discussion : plus de 90 000 listes gérées sur plus de 2400 serveurs.
La recherche s'effectue en entrant un ou plusieurs mots séparés par des espaces (opérateur AND) ou en utilisant les opérateurs OR et NOT, les parenthèses et la troncature interne ou à droite *.
L'index tient compte des majuscules et minuscules.

Il est aussi possible de partir d'un des 15 thèmes sélectionnés par Liszt.

Un répertoire de Groupes de News offre une recherche :

  • par index
  • par préfixe des hiérarchies

Attention votre serveur de News ne contient pas forcément tous les groupes trouvés.

OneList

Ce service permet de retrouver des listes de discussion : les listes signalées sont classées, caractérisées (Safe for Kids, For People Over 13, For People Over 17, For People Over 21) et la modération éventuelle est signalée. Un formulaire de Recherche avancée permet une recherche par mots-clès, par langue et par type de public. On peut aussi en créer facilement.

Reference.com

Service complet, il facilite l'identification et l'interrogation de plus de 15 000 newsgroups, 100 000 listes de discusion et 25 000 forums web.
Les forums web sont une nouvelle façon de collaborer en réseau. Il faut se connecter au site web qui gère le forum pour lire les mesages ou en poster. Reference.COM estime à plus de 25 000 leur nombre. Plus de 40 millions de personnes participent régulièrement à ces différents moyens d'échange.

La fonction browse affiche les grandes hiérarchies des groupes de News et les listes de discussion par ordre alphabétique.
Pour l'interrogation, on peut choisir entre un formulaire simple et une recherche avancée.
Il est enfin possible de poster des messages.

Tile.Net

Ce service maintient deux listes alphabétiques de l'ensemble des Listes de discussion et des Groupes de News publics. Il est aussi possible d'interroger un index.


Le filtrage de l'information

Les moteurs de recherche ont apporté une aide précieuse dans la recherche d'information. Mais leur fonctionnement est très "mécanique" : nombre de requêtes échouent, le bruit est important. D'autres méthodes sont explorées.

Les principes
Le filtrage en ligne
Le filtrage en local
Le filtrage collaboratif
Les agents


Les principes de fonctionnement

On appelle filtrage d'information le processus permettant, à partir d'un large volume d'informations dynamiques, d'extraire et de présenter les seuls documents intéressant un utilisateur qui a décrit ses centres d'intérêt.Les informations dites dynamiques proviennent de sources différentes et sont sujettes à des modifications au cours du temps. Un système de filtrage est donc un assistant personnel qui lit et filtre les documents que l'on reçoit sur l'Internet. Il doit être capable d'identifier uniquement les textes qui traitent des sujets intéressant l'utilisateur.

Une des premières formes de filtrage a été la DSI (Diffusion Sélective de l'Information) qui consiste à envoyer à intervalle régulier l'ensemble des références nouvelles répondant à une requête préalablement enregistrée. La DSI n'est pas sans défaut, elle peut difficile être implémentée telle quelle sur les systèmes de messagerie, étant donné le grand volume d'information qui circule dans l'Internet. Les recherches actuelles sont orientés vers des systèmes automatiques dits "intelligents". Pour des raisons pratiques (structuration des documents), les premiers travaux concernaient surtout les News. Les recherches actuelles sont plutôt orientées vers les services W3.

Les principales caractéristiques d'un système de filtrage :

  • Destiné à des informations peu ou pas structurées contrairement aux bases de données qui utilisent des documents très structurés. La notion de structure concerne le format que doit avoir le document et son contenu. Il est facile, par exemple de définir une base de donnée pour des documents complexes, tel que des articles de journaux, mais le contenu de ce type de documents reste mal défini. Exemple de document semi-structuré, le message électronique : champs définis mais corps du message en texte libre.
  • Il diffuse en général des informations textuelles, mais aussi image ou son. Ce genre d'information est très mal géré par les systèmes de recherche conventionnel du fait de la complexité de la représentation de leur contenu.
  • Le filtrage concerne un flux d'information en provenance d'une ou plusieurs sources extérieures (ex news) ou adressé directement à l'utilisateur (ex. e-mail).
  • Le filtrage doit prendre en compte le profil de l'usager qui spécifie au système ses caractéristiques.

On s'oriente actuellement vers le modèle dit de filtrage par collaboration (collaborative filtering ). Les utilisateurs d'un système d'informations participent activement à l'alimentation d'une base de données gérée par le filtre contenant des informations sur eux-mêmes, et sur les documents qu'ils ont consultés. L'utilisateur donne son avis sur les documents lus et ces réactions peuvent être annotées et être consultées par d'autres. Ainsi on établit des relations document-document et document-utilisateur. Le filtre dispose donc d'informations variées sur un document et peut par exemple proposer à un utilisateur la liste des personnes travaillant sur le même sujet et lui sélectionner les documents qu'elles ont consultés. Si parmi ces documents certains sont pertinents, le filtre pourra trouver l'ensemble des documents ayant les mêmes annotations.


Le filtrage en ligne

Deja

Les groupes de News présentent un difficile problème d'exploitation sauf à se contenter d'un petit nombre. Il est quasiment impossible d'explorer de manière pertinente les millions de messages échangés en temps réel. Les logiciels de consultation de News n'offrent qu'une lecture séquentielle légèrement améliorée par des tris sur certains champs de l'entête.

DejaNews qui vient d'évoluer en Deja.com en mai 99, propose une autre approche en considérant les groupes de News comme une base de données unique. Certains moteurs de recherche le font aussi mais sans en exploiter toutes les possibilités.
La partie de l'écran qui nous intéresse n'occupe plus que le haut droit de l'écran. On utilisera le formulaire Power Search qui permet de rechercher dans un champ particulier : Group, Auteur, Date et Sujet.
Par défaut, les messages sont triés par score, mais on peut aussi trier sur la date, l'auteur ...Le score est calculé par le moteur de recherche en fonction du nombre de fois qu'apparaît un terme de la question, le rapport entre les mots-clés et le nombre total de mots du corps du message et de la date du message (les messages récents sont favorisés). Trois formats d'affichage sont disponibles :

  • le format concis donne une ligne par message avec la date, le sujet, le nom du groupe de News, l'auteur et le score.
  • le mode détaillé affiche les mêmes champs sur plusieurs lignes.
  • le format threaded trie les messages grâce au champ Sujet, les réponses à un message sont dé-calées vers la droite.

Deja propose aux utilisateurs de noter des services web, c'est Deja Ratings.


Le filtrage en local

On trouve des logiciels à installer sur son poste de travail pour aider à gérer les documents récupérées.

Infoscan
InfoScan est un logiciel de filtrage à partir de mots-clès et de visualisation de l'information issue du courrier électronique et des News.


Le filtrage par collaboration

On commence à trouver des applications basées sur cette technique : à partir du comportement, des goûts et habitudes d'usagers les agents collaboratifs trouveront des sites conformes à leurs attentes.

Firefly. Popularisé par ces résultats dans le conseil de le domaine musical, la société du même nom vient d'être rachetée par Microsoft.
Mais ces techniques sont encore du domaine de la recherche.


Les agents

Systèmes capables, dans une situation donnée, de prendre une décision et d'agir automatiquement sans intervention humaine.
Ils trouvent aujourd'hui leur application dans divers domaines tels que la prise de décision en gestion de l'entreprise. Cette tâche omplexe et dépendant de paramètres eux mêmes complexes (bourse, situation politique, climat) est souvent confiée à des agents qui simulent l'intelligence humaine, mais qui ont l'avantage d'agir plus rapidement que l'homme. Ils sont aussi utilisés dans le domaine de la sécurité (ex : centrales nucléaires).
Dans les prototypes existant, ces agents observent le comportement de l'usager et constituent ainsi une base de données sur l'usager à partir de laquelle ils pourront agir.
Pour la gestion d'informations structurées, le principe est le même que la DSI. A partir d'une équation de recherche préalablement établie par l'usager, l'agent sélectionne les documents qui sont susceptibles de répondre à sa requête, les présente à l'usager avec des commentaires et des suggestions, en les classant par ordre de pertinence. Dans un premier temps, il observe le comportement de l'usager afin d'ajuster son équation, puis il décide de lui adresser ou non tel où tel document.

Autonomy
L'agent "Autonomy" développé par Agentware possède une certaine intelligence qui s'appuie sur la technologie des réseaux de neuronaux. Le profil de l'utilisateur n'est pas formé de mots-clés ou d'un vocabulaire donné mais s'identifie exactement à un "concept". Par ailleurs il offre une possibilité relativement unique de "ré-entraînement" des agents. Il est vendu 390 F ht.

Copernic
Une version sur mesure de Copernic 98 créée pour CollectingChannel (un aggrégat de contenus pour les collectionneurs fournis par une douzaine de partenaires : magazines, librairies, bases de données, cybercommerces spécialisés...) ajoute à la version de base un canal de recherche spécialisé pour les collectionneurs.


Les fichiers sur serveurs FTP

Nous conseillons fortement l'utilisation des sites suivants qui permettent de rechercher un logiciel par son nom, sa description et la plateforme matérielle.

 

File Mine

On donne un terme et on précise le système d'exploitation ou choisir dans une catégorie.
Chaque logiciel a reçu une appréciation : Nouveau, Bijou ...
Enfin on peut se constituer un lot de fichiers à télédécharger.

Filez

Ce site affirme signaler 75 millions de fichiers répartis sur 5 000 serveurs.
On peut limiter une recherche en précisant un nom de domaine.

Shareware.com

Dans une base de plus de 250 000 fichiers, ce service propose :

  • un mode de recherche simple (quick search),
  • un mode avancé (power search).

Dans ce cas après avoir indiqué le système d'exploitation concerné, on donne quelques termes combinés par Et et SAUF si nécessaire. On peut limiter par date. La recherche se fait dans le texte de description qui accompagne tout logiciel et dans le nom du produit.

Hot File

HotFiles fait partie de l'ensemble des outils de recherche proposé par le groupe d'édition Ziff Davies.

TuCows

Ce site est une mine de logiciels permettant d'exploiter au mieux les ressources de l'Internet. De nombreux miroirs permettent un télédéchargement sans problème.


Les méta-moteurs clients

De nombreux logiciels à installer sur son poste de travail permettent de localiser des documents répondant à une question et de télédécharger le contenu des sites de manière plus ou moins complète sur son disque dur pour les consulter ensuite hors ligne. Cette famille de logiciels est en plein essor et les produits nouveaux sont nombreux.

Copernic Les recherches sont lancées simultanément sur plus de 120 sources d'information regroupées en 17 canaux. Il affiche les résultats au fur et à mesure qu'il les trouve. Pour chacun apparaît le titre, une description, l'URL, le nombre d'occurrences, la date de la recherche, "trouvé par", ainsi que l'état (accessible, inaccessible, nouveau...). Classés par ordre de pertinence, les doublons et les liens périmés sont automatiquement éliminés. On peut interroger par mots-clés les résultats obtenus. Pour la consultation hors ligne, il est possible de téléchargement tout ou partie des documents trouvés. Un historique détaillé des résultats, classés dans des dossiers, peut être crée et mis à jour au fur et à mesure.

DigOut4U Développé par la société française ARISEM ce méta-moteur est capable de récupérer les pages web dont le contenu sémantique correspond à une requête tapée en langage naturel (plus précis que les mots-clés selon les concepteurs). Un moteur díanalyse du langage naturel, basé sur la représentation des structures sémantiques traduit la demande en mots-clés, le logiciel interroge les différents moteurs de recherche (liste de moteurs présélectionnés qu'il est possible de compléter), compile les résultats en analysant sémantiquement le contenu des pages, ainsi que les liens qu'elles contiennent. Pour chaque moteur utilisé, DigOut4U retient les cinq premières pages de résultats, élimine les doublons et présente les résultats par ordre décroissant de pertinence. Les documents s'affichent sur un écran de présentation avec pour chaque lien: le titre, le taux de pertinence, l'URL, le nombre d'occurrences, le nombres de liens hypertextes contenu dans le site, le temps mis par le logiciel pour récupérer la page ainsi que le moteur de recherche utilisé. Le système peut capa-ble de travailler en tâche de fond.
Les prix sont prohibitifs surtout comparés aux concurrents.

Inforia Quest Ce méta-moteur peut interroger simultanément plus de 100 moteurs de recherche sur le Web et les newsgroups ainsi que des sites d'informations comprenant des fonctions de recherche (ex: CNN News). Il autorise des requêtes complexes basées sur les opérateurs booléens, la recherche en lan-gage naturel et la recherche floue. Les résultats de la recherche sont triés (les liens dupliqués sont éliminés), hiérarchisés, et sauvegardés sur demande. Ils s'affichent au fur et à mesure et IQ peut travailler en "tâche de fond". Les sources peuvent être sélectionnées parmi des domaines de recherche, et un profil de recherche peut être constitué.
IQ 98 coûte 25 dollars et peut-être essayée gratuitement.

MemoWeb Développé par GOTO Software, il permet la capture de pages web au sens large (images, applets, VRML, FTP), la gestion complète de la connexion (déconnexion automatique, proxies), les captures configurables (filtres d'inclusion/exclusion, choix de profondeur, choix des types de fichiers ou de domaines).
Vendu 299 F ht, une version d'essai gratuite peut être téléchargée sur le site.

Umap Umap est développé par la société française Trivium. Il interroge 16 moteurs de recherche, élimine les doublons et cartographie les réponses. La "carte dynamique" permet de visualiser la nature, le contexte et la cohérence d'un ensemble de textes. Elle requiert l'intervention active de l'utilisateur pour la hiérarchisation des mots significatifs contenus dans les textes. En effet, au fur et à mesure de la recherche sur le Web, le logiciel se constitue un dictionnaire de mots-clés. L'utilisateur peut sélectionner les mots qui se rapprochent de sa recherche et obtient une nouvelle carte de réponses.
Vendu 320 F ht, une version d'évaluation peut être télédéchargée.

Web Seeker et Web Whacker On peut choisir les annuaires et moteurs de recherche à interroger parmi plus d'une centaine. La question est une liste de mots combinés par un ET ou un OU. Il présente donc les limites de ce type d'outils. Son intérêt particulier réside dans la possibilité d'établir un planning de télédéchargement en indiquant jours et heures (la nuit par exemple).
Environ 50 $ l'un.