Qu’est-ce qu’un crawler web (robot d'exploration)?
Les crawlers web ou robot d'exploration
Appelée robot d'exploration, web crawler ou simplement bot, cette IA sert à télécharger et indexer du contenu de l'ensemble d'internet. Le but d’un tel bot est de découvrir (autant que possible) de quoi traite chaque page sur le web. Ainsi, l’information pertinente peut ensuite être récupérée quand elle s'avère nécessaire. Ces IA sont souvent appelés web crawlers car le fait d'accéder automatiquement à un site pour obtenir des données via un logiciel est nommé crawling.
La plupart des crawlers actifs sur le web sont exploités par des moteurs de recherche. Ceux-ci appliquent un algorithme de recherche aux données recueillies par les bots pour sélectionner des liens pertinents en réponse aux requêtes de recherche des utilisateurs. C'est ainsi qu'est générée la liste des pages web qui apparaissent quand un utilisateur effectue une recherche Google, Bing ou tout autre moteur.
Un crawler fonctionne comme quelqu’un parcourant l'ensemble des livres d'une bibliothèque totalement désorganisée. Il met en place un index (soit catalogue de cartes), permettant à quiconque visite la bibliothèque de rapidement et facilement trouver l’information dont il a besoin. Afin de classer et trier les livres de la bibliothèque par sujet, le crawler procède comme un bibliothécaire. Il lit le titre, le résumé, et une partie du texte interne de chaque livre pour en comprendre le sujet et la pertinence.
Contrairement à une bibliothèque, l’Internet n’est toutefois pas composé de piles physiques de livres (ou même de sites). Il est donc difficile de savoir si toutes les informations nécessaires ont été correctement indexées, ou si des quantités importantes de données sont manquantes.
Dans le but de trouver toutes les informations pertinentes disponibles sur le web, un crawler commencera par visiter un certain ensemble de pages Web connues et réputées. Il suivra ensuite les hyperliens de ces pages vers d’autres pages web. Il suivra alors les hyperliens présents sur ces autres pages vers une nouvelle série de pages supplémentaires, et ainsi de suite.
Nul ne sait réellement le nombre robots d'exploration actuellement utilisés par les moteurs de recherche, ni leur degré réel de succès. Certains experts estiment que seulement 40 à 70 % de l'ensemble d’Internet est présentement indexé pour des fins de recherche. Ce pourcentage limité représente pourtant déjà des milliards de pages web.
Mis à jour le : 15/05/2023
Merci !