Les moteurs de recherche

 

Nous pouvons définir un moteur de recherche comme étant un serveur ou un groupe de serveurs qui se consacre au référencement des pages Internet. Lors de requêtes particulières, ces Moteurs renvoient des listes de liens correspondants à la demande. L'enregistrement dans ces moteurs se fait par les robots, la plupart du temps. Ainsi, Ils récupèrent à l’aide des robots logiciels tous documents accessibles sur les serveurs.

 

Ces robots sont des programmes qui s’exécutent automatiquement sur des ordinateurs reliés à l’Internet et qui explorent le Web systématiquement en parcourant et en enregistrant la structure hypertextuelle et le contenu des documents repérés en utilisant le protocole HTTP (Hypertexte transfert protocol). Ils sont plusieurs à avoir cette tâche. Ils s’appellent wander, crawler, spider ou worm et à chacun sa méthode. Le principe est de visiter les sites et de les indexer. Certains se contentent d’indexer les titres HTML des pages ou les premiers paragraphes. D’autres indexent le texte complet en extrayant l’ensemble des mots.

 

Le travail de ces robots permet donc de créer des bases de données sur lesquelles on peut directement effectuer nos recherches. Ces bases de données ou ces outils s’appellent les moteurs de recherche ou les métamoteurs quand l’interrogation porte sur plusieurs moteurs à la fois.

 

1- Les métamoteurs

 

Les métamoteurs de recherches sont des outils du net qui ne maintiennent pas d’index mais dirigent une requête unique vers plusieurs moteurs à la fois, organisent les réponses et présentent à l’utilisateur le résultat sous une forme structurée en éliminant les doubles. En effet, ils sont très efficaces quand on cherche une information difficile à trouver.

 

Certains métamoteurs sélectionnent eux même les moteurs de recherche dans lesquels ils effectuent leur recherche par contre d’autres nous donne la possibilité de les choisir en cochant sur les moteurs de recherche qu’on veut utiliser. Ils permettent ainsi d’améliorer le taux de couverture de la requête en évitant la dispersion de la recherche.

 

On peut distinguer deux types de métamoteurs :

·        les métamoteurs serveurs que l’on consulte sur un serveur à distance comme par exemple Ariane6 ou Kartoo et ;

·        les métamoteurs clients, appelés aussi logiciels de recherche qu’on peut installer sur l’ordinateur pour effectuer nos recherches comme Copernic. (Nous traiterons ce genre d’outils dans la partie « Logiciels de recherche et agents intelligents ».

 

Parmi les métamoteurs francophones les plus utilisés, on peut citer

 

123TROUVE

                                                

Ce métamoteur interroge en parallèle les meilleurs moteurs de recherche tels que Google, MSN, Voila, Nomade, Fast, Yahoo, Altavista, Lycos, DMOZ, Excite, Hotbot, Webshots , Emusic, MP3 et permet d'obtenir des résultats rapides.

 

Actuellement, les recherches sont effectuées sur le web, les fichiers mp3 et les fichiers images, et bientôt le service s’élargira vers des recherches sur des enchères, de l’actualité, des technologies, emploi, achat et plus…

 

                                                 

ApocalX est un portail qui a pour vocation la recherche sur Internet. Il utilise pour cela quelque moteurs sélectionnés à l’avance pour la pertinence de leurs résultats. Il nous est possible, donc, d’utiliser plusieurs mots à la fois pour effectuer une recherche en utilisant l’opérateur ET sans gérer les opérateurs OU et SANS.

 

Ce métamoteur dispose également d’un annuaire de recherche qui répertorie aussi bien les moteurs, annuaires et métamoteurs par nationalités que les outils spécialisés par thèmes. Il en devient donc un outil presque indispensable pour les professionnels de la recherche que pour le simple internaute désirant trouver de manière ultra-ciblée un site Internet.

 

                                               

Ce métamoteur consulte des serveurs de notre choix. Ces derniers sont proposés sur sa page d’accueil tels que Altavista, Francite, Hotbot, Google, Nomade, Voilà et autres. Il élimine les doublons et nous retourne les résultats dans l’ordre dans lequel il les reçoit pour éviter toute attente. La recherche peut être aussi effectuée sur la base de donnée de cet outil qui prend en compte le titre, la description et les mots-clés de chaque moteur de recherche.

 

Ariane6 nous propose également l’accès à plus de 1350 moteurs de recherche et annuaires classés par pays ou par thème.

 

                                                

Ce métamoteur exécute les recherches sur plusieurs outils simultanément. Il offre la possibilité de rédiger sa requête en utilisant un langage naturel ou en se servant aussi des fonctions booléennes. Pour cela, Il traduit la recherche selon la syntaxe spécifique de chaque outil et élimine les doubles.

 

Debriefing attribue une étoile à chaque moteur qui reconnaît un site dans son top dix. Et étant donné que chaque moteur valorise le contenu des sites différemment, le site qui apparaît dans plusieurs moteurs de recherche sera forcément le plus pertinent.

 

* Infozoid

                                               http://www.infozoid.com

 

InfoZoid est un métamoteur de recherche qui permet d'effectuer simultanément des recherches dans un ou plusieurs des principaux moteurs de recherche proposés sur la page d’accueil. Il est facile à utiliser et offre diverses fonctionnalités. En effet, il nous permet de faire une recherche rapide sur le Web, sur les actualités ou directement sur le serveur usenet en faisant appel à chaque fois si nécessité aux opérateurs booléens pour délimiter le sujet.

 

                                                 

Avec une page d’accueil très simple, Ithaki change beaucoup du reste des outils du net. Il est né en janvier 2000 et en deux ans, il s’est beaucoup développé. Disponible actuellement dans 14 langues, il dispose de plusieurs catégories (mp3, image, nouvelle, affaire…). Ithali est révolutionnaire car il est le premier métamoteur complètement dédié à Linux et aussi le premier wap métamoteur.

 

Il supprime les doubles et les sites qui sont répétés dans plusieurs moteurs seront affichés en premier avec le nom de chaque moteur à côté. La recherche est possible avec un ou plusieurs mots ou complètement une phrase en utilisant des opérateurs booléens si besoin pour affiner le résultat.. 

 

                                                

Kartoo un métamoteur qui se veut très simple d’accès et très graphique. Il affiche ses résultats sous la forme d’une carte et nous donne en plus du résultat, une brève description de la page telle qu’elle est affichée sur Internet en reprenant automatiquement les informations contenues dans les sites présentées lors de la recherche.

 

Lancé en avril 2001 par une société française de Clermont-Ferrand. Il a apporté une nouvelle version et un nouveau concept des outils de recherche sur Internet avec une nouvelle présentation visuelle.

 

En effet, Il permet de visualiser l'ensemble des thématiques connexes à une requête et de préciser la recherche d'informations par l'intermédiaire de ses thématiques générées dynamiquement en cliquant sur des boutons + et - associés. Il facilite également l'utilisation des fonctions avancées (recherche dans le titre, le paragraphe descriptif, rechercher les sites des concurrents,....).

 

Dernièrement et pour son deuxième anniversaire, Kartoo a proposé une interface encore plus simple avec un graphisme moins chargé, facilitant encore la lecture et aussi le temps de recherche qui était jusque là un peu long.

 

                                                

Killou est un métamoteur qui teste et étudie les sites internet en temps réel. Le site trouvé se voit attribuer après des points selon sa position sur les outils de recherche. Ces points sont variables selon le type d'outils de recherche (moteur de recherche ou annuaire).

 

Dans le résultat final, nous pouvons aussi avoir à l’avance l’indice de popularité du site, s’il contient une image ou s’il dispose de liens vers d’autres sites.

  

                                              

Lancé en avril 1999, LBB est un outil de recherche qui se présente sous la forme d’un guide englobant à la fois un métamoteur et un annuaire de recherche. Il a l’avantage d’avoir des services variés et ainsi donner plus de choix à ses utilisateurs. Ainsi, nous pouvons chercher soit sur la base de données LBB soit directement sur le web en faisant appel à 13 moteurs de recherche.

 

                                              

Mega.francité est un annuaire, un moteur et un métamoteur. Ce dernier permet de faire la recherche à la fois sur l’annuaire de francité et sur les grands moteurs de recherche tels que Altavista, Yahoo et Nomade. Il offre la possibilité d’affiner la recherche pour permettre un meilleur résultat, et de choisir entre le web francophone : français, québécois, suisse, belge ou mondial.

 

Mega.francité offre aussi la possibilité de faire une recherche à partir d’un nom de domaine, de découvrir les différentes extensions, d’enregistrer un nom de domaine et de savoir à qui il appartient. L’annuaire quant à lui est indispensable. Il permet aux débutants de naviguer dans le sujet qui les intéresse en ayant accès à 14 grandes sections à partir de la page d’accueil .

 

                                               

Samba est un métamoteur réalisé en javascript et très facile à utiliser. Il permet de faire la recherche sur 22 moteurs simultanément. Il suffit simplement de rédiger sa requête (en utilisant + pour les mots composés), de choisir le ou les moteurs qu’on veut interroger et le résultat s’affichera directement sur la page de l’outil choisi.

 

            * Supra moteur

                                               http://www.supramoteur.com

 

Supra moteur est un outil de recherche qui s’adresse aux internautes et entreprises qui souhaitent faire de la veille marketing, financière ou technologique.

 

Il interroge simultanément tous les moteurs en s'adaptant au langage de chacun d'entre eux. Il élimine les doubles et classe les réponses des moteurs en les regroupant par sites, puis il restitue sa réponse sous forme d'une seule liste.

 

            * Autres métamoteurs

 

La liste n’est pas limitative, d’autres métamoteurs francophones ont récemment vu le jour. On peut citer à titre d’exemple :

            http://www.800go.com/800go-fr.html

            http://www.akooe.com

            http://www.archisoft.ch/divers/multi-recherche.html

            http://www.francoweb.com/

            http://ixquick.com/fra/

            http://www.arbo.com/Search/

            http://megasearch.free.fr/

            http://www.metarecherche.net/

            http://metasearch.bethel-fr.com/

            http://www.metafrance.com/

            http://metamoteur.free.fr/

            http://www.recherche.fr/

            http://search.siw.ch/

            http://www.kamus.it/usefr.htm

            http://www.warm2.com/

            http://www.yoofind.com/

 

2- Les moteurs  de recherche francophones

 

La plupart des moteurs de recherche actuels fonctionnent avec des mots-clés. Cependant, on tend de plus en plus à les humaniser en offrant la possibilité d’effectuer sa requête en langage naturel sous la forme d’un mot, une phrase ou une expression.

Parmi les moteurs francophones les plus utilisés :

 

                                               

Aol France, filiale du leader mondial de l’Internet, lance le mois d’avril 2002 son moteur de recherche accessible à tous les internautes. Cet outil propose l’un des plus grand index de sites web francophones (environ 50 millions de pages) avec des règles de classement conjuguant pertinence et efficacité. Aol permet aux internautes d’affiner leur recherche dans une logique humaine en leur proposant les mots ou groupes de mots les plus souvent cités dans les documents trouvés.

 

Pour réaliser son outil, Aol a coopéré avec Exalead, société française éditrice de logiciels, experte de la recherche documentaire et l'analyse statistique en temps réel et Cybion, spécialiste de la veille sur Internet et éditrice d'annuaires Web. Inktomi ajoute une fonction sur le Web International avec plus d'un milliard de documents indexés. Enfin, Sun et KPNQwest apportent leur savoir-faire dans le domaine des serveurs, systèmes haut de gamme et hébergements.

 

Aol dispose également d’un classement thématique sous forme d’annuaire où 90 000 site ont déjà été répertoriés par le partenaire Cybion qui se charge de le réactualiser et le développer.

 

                                          

Créé en 1995, Altavista était parmi les premières sociétés à proposer ses services de la recherche de l’information sur Internet. La version française a été lancé en février 2000 et renouvelée au courant du printemps 2001. Actuellement, il est parmi les plus populaires et les plus variés des moteurs de recherche.

 

Né chez Digital, Altavista combine des technologies et des services incomparables pour fournir aux internautes des résultats pertinents le plus rapidement possible à l’aide d’une nouvelle interface très simple à utiliser et un index très riche de 20 millions de pages référencées

 

Altavista alimente ses archives de deux façons. D’un côté, il permet aux internautes de référencer facilement leurs sites et d’un autre, son robot, appelé Scooter, parcourt le web et insère dans la base de données près de 10 millions de pages par jour. Le moteur de référencement peut examiner plus d’un milliard de caractères par heure en identifiant la langue d’origine de la page et en permettant aux utilisateurs de paramètrer leurs recherches.

 

Altavista donne évidemment la possibilité de chercher des documents texte mais également des images, des fichiers audio / mp3 et des enregistrements vidéo. Il est mis à jour et innové régulièrement avec à chaque fois des nouveautés comme par exemple la détection de phrase, la correction orthographique et les fonctions en langage naturel.

 

                                              

Google a été créé en 1998 par Larry Page et Sergey Brin, deux étudiants en doctorat de l'université californienne de Stanford pour faire face à l’explosion de l’Internet dans le monde. Société privée, Google a obtenu en juin 1999 25 millions de dollars (USD) de financement de la part de Kleiner Perkins Caufield & Byers et Sequoia Capital.

 

Ce moteur de recherche ne se limite pas aux technologies basées sur les mots-clés ou sur les métarecherches, mais, il a mis au point la technologie « PageRank » (en instance de brevetage), qui garantit que les résultats les plus pertinents sont toujours affichés en tête de liste.

 

PageRank effectue une mesure objective de l'importance des pages Web (puis de leur «pertinence» par rapport aux termes de recherche spécifiés) ; les valeurs PageRank sont calculées à partir d'une équation portant sur 500 millions de variables et plus de deux milliards de termes en différentes langues. Pour affecter une valeur de pertinence à une page, PageRank exploite la toile d'araignée des liens du Web. Le principe de PageRank implique deux évaluations :

 

(1)   Chaque fois que Google détecte un lien entre la page A et la page B, il le considère comme un « vote », ou une opinion favorable, de la page A en faveur de la page B.

(2)   Google détermine l'importance d'une page en fonction du nombre de votes qu'elle reçoit. (Google analyse également la page qui émet le vote.)

 

L'index de Google, qui porte sur près de deux milliards d'adresses URL, inclut, outre les traditionnelles pages web, de nombreux autres documents disponibles sur Internet, notamment ceux aux formats Microsoft Word, Excel et Powerpoint ainsi qu'Adobe Acrobat. Il est le premier du genre et il constitue la collection la plus complète de pages Web à contenu utile et le moteur de recherche le plus populaire sur internet.

 

Grâce à un réseau de 10 000 ordinateurs répartis sur trois centres, Google indexe plus de 2 milliards de pages et répond à plus de 150 millions de requêtes par jour. Il est utilisé régulièrement par 50 millions d’internautes et la moitié des requêtes émanent de 65 pays (hors États-Unis).

 

Autre avantage de cet outil, les résultats fournis ne sont jamais influencés par l’argent, alors que la plupart des outils affichent en premier lieu les sites qui les rémunèrent. Les ressources actuelles proviennent d’une part des autres sites qui utilisent ses services (Yahoo, Free, Excite…) et d’autre part de la publicité.

 

Pour compléter et varier ses services, Google a acquis en février 2001, les archives du forum de discussion Usenet (autrefois accessible par le serveur DejaNews) avant de lancer le mois de juillet 2001 un service de recherche d’images.

 

                                           

Lancé en 1996 aux États Unis à l’Université Berkeley, Hotbot qui fait partie maintenant du réseau de sites de Lycos Europe, a réalisée sa version française au courant du mois de décembre 2000.

 

Cet outil offre aux utilisateurs une interface facile à utiliser et un guide interactif pour effectuer la recherche dans une base de données mise à jour tous les mois. Les résultats des requêtes sont fondés sur une comparaison des mots-clés et le contenu de millions de pages web.

 

Les principes de base affectant le classement sont : les mots dans le titre, les tags meta keyword, l'occurrence du mot dans les documents, et la longueur du document. En plus, pour que le site soit bien classé, il faut qu’il ait à l’avance un vrai contenu et pour que la page soit trouvée, il faut que le mot-clé existe dans le contenu de la page et dans le titre.

 

Le grand inconvénient d’Hotbot France réside dans le fait que la recherche est limitée au seul domaine .fr qui est loin de contenir tous les sites français

 

* Infoclic

            http://www.infoclic.fr

 

Infoclic est un outil de recherche unique dans son genre. Il est désormais possible de formuler sa question en langage naturel en posant une vrai question (sujet, verbe, complément). Les réponses sont instantanées et objectives avec un regard humain.

 

Le site dispose également d’un annuaire constitué des questions les plus posées classées par thème.

 

                                               

La base de données du moteur contient plus de 58 millions d’URL francophones. Elle est alimentée par des programmes informatiques appelés « Robots ». Ces derniers visitent les sites, indexent et mettent à jour leur contenu en permanence toutes les deux semaines. L’analyse des « robots » permet de détecter la langue, les thèmes et bien d’autres informations.

 

Le moteur de recherche Voila est parmi les plus puissants outils. Il est adapté aussi bien aux recherches généralistes que spécialisées. La recherche peut être effectuée de différentes manières selon les besoins : recherche simple dans le champ de saisi de la page d’accueil, recherche détaillée grâce à un formulaire détaillé et recherche thématique accessible par une interface spécialisée.

 

            * Autres moteurs de recherche

 

Il existe d’autres moteurs de recherche sur le net sans oublier bien sûr que la plupart des annuaires contiennent un moteur de recherche pour effectuer des recherche directes sur leurs bases de données sans passer par l’arborescence comme par exemple Yahoo, Nomade, etc. Parmi les moteurs de recherche qu’on peut citer :

 

            http://fr.abacho.com/

            http://www.antisearch.net/Welcome/jsp/entrance.jsp

            http://web.caloga.com/

            http://janas.tiscalinet.fr/

            http://www.maximini.net/

            http://www.mirago.fr/. Cet outil permet de faire des recherche dans sa région

            http://www.netscan.fr/

  

3- Les moteurs de recherche spécialisés

 

Pour compléter le travail des outils de recherche généralistes, certains se sont spécialisés dans une discipline ou dans des ressources spécifiques. Ainsi, il est possible de trouver rapidement des logiciels, des listes de discussion, l’actualité, des biographies et tout ce qui se publie sur le net sur un thème particulier.

 

En effet, ces moteurs peuvent être géographiques (par pays), linguistiques (par langue), par type d’objet (fichiers FTP, news, catalogues de bibliothèques) ou par sujets (Droits, médecines, économie, environnement, etc.)

 

Ils ont l’avantage d’être beaucoup plus exhaustifs quand ils sont régulièrement mis à jour et constituent une source très privilégiée dans leur domaine.

 

4- Les moteurs de recherche humains

 

Ces outils de recherche, comme leur nom indique, sont des moteurs où on demande à des humains de faire des recherches à notre place. Il suffit de se connecter, de poser sa question et d’attendre la réponse sur le web directement ou sur son mail. Ce servie peut être gratuit ou payant.

 

Pour mener à bien leurs missions, ils font appel à des spécialistes de la recherche de l’information. Ce genre d’outils peut être soit des moteurs de type « web call center » pour le grand public ou les internautes débutants, soit des outils experts faisant appel à des spécialistes pour chaque thème abordé.

 

Parmi les moteurs de recherche humains francophones, on peut citer :

                                  

       

 

 

Page d'accueil