Ouvrez une application simple d'édition de texte, tel que Notepad, qui est fourni avec Microsoft Windows, ou TextEdit de Mac OS X, où vous aurez l'auteur d'une application Python bot Web.
Initier le script Python en incluant les lignes de code suivantes, et le remplacement de l'exemple d'URL avec l'URL du site que vous souhaitez numériser et le nom de la base de données exemple avec la base de données qui sera stocker les résultats:
urllib2 d'importation, ré, chaîne
enter_point = 'https://exampleurl.com'
db_name = 'example.sql'
Inclure les lignes de code suivantes pour définir la séquence d'opérations que le bot Web suivra:
def uniq (suivants):
set = {}
carte (set.setitem, suivants, [])
retourner set.keys ()
Obtenir les URL dans la structure du site en utilisant les lignes de code suivantes:
geturls def (url):
articles = []
demande = urllib2.Request (URL)
request.add.header ('User', 'Bot_name -)')
content = urllib2.urlopen (demande) .read ()
articles = re.findall ('href ="http: //.?"-', Contenu)
URL = []
retourner urls
Définir la base de données que le bot Web va utiliser et de préciser quelles informations il doit stocker pour terminer faisant le bot Web:
db = open (db_name, «a»)
allurls = uniq (geturls (enter_point))
Enregistrez le document de texte et de le transférer à un serveur ou d'un ordinateur avec une connexion Internet où vous pouvez exécuter le script et commencer à numériser des pages Web.