Les partenaires publicitaires:

Comment faire un bot web

Les moteurs de recherche, comme Google ou Yahoo !, tirent des pages Web dans leurs résultats de recherche en utilisant les robots collecteurs de Web (également appelés parfois des araignées ou des robots), qui sont des programmes qui scannent les sites Internet et les index dans une base de données. les robots collecteurs de Web peuvent être faites en utilisant la plupart des langages de programmation, y compris C, Perl, Python et PHP, qui permettent aux ingénieurs de logiciels d'écrire des scripts qui exécutent des tâches de procédure, telles que la numérisation et l'indexation Web.

Instructions

  1. Ouvrez une application simple d'édition de texte, tel que Notepad, qui est fourni avec Microsoft Windows, ou TextEdit de Mac OS X, où vous aurez l'auteur d'une application Python bot Web.

  2. Initier le script Python en incluant les lignes de code suivantes, et le remplacement de l'exemple d'URL avec l'URL du site que vous souhaitez numériser et le nom de la base de données exemple avec la base de données qui sera stocker les résultats:

    urllib2 d'importation, ré, chaîne
    enter_point = 'https://exampleurl.com'
    db_name = 'example.sql'



  3. Inclure les lignes de code suivantes pour définir la séquence d'opérations que le bot Web suivra:

    def uniq (suivants):
    set = {}
    carte (set.setitem, suivants, [])
    retourner set.keys ()




  4. Obtenir les URL dans la structure du site en utilisant les lignes de code suivantes:

    geturls def (url):
    articles = []
    demande = urllib2.Request (URL)
    request.add.header ('User', 'Bot_name -)')
    content = urllib2.urlopen (demande) .read ()
    articles = re.findall ('href ="http: //.?"-', Contenu)
    URL = []
    retourner urls

  5. Définir la base de données que le bot Web va utiliser et de préciser quelles informations il doit stocker pour terminer faisant le bot Web:

    db = open (db_name, «a»)
    allurls = uniq (geturls (enter_point))

  6. Enregistrez le document de texte et de le transférer à un serveur ou d'un ordinateur avec une connexion Internet où vous pouvez exécuter le script et commencer à numériser des pages Web.

» » » » Comment faire un bot web