Para poder desarrollar el Crawler con Python lo primero que debemos hacer es instalar la librería llamada scrapy. Esta librería la podemos instalar usando pip. Con esta librería ya instalada vamos a crear un documento de Python llamado simpleCrawler.py
Dentro de este documento vamos a crear una clase llamada Crawler
import scrapy
class Crawler(scrapy.Spider):
name = 'SimpleCrawler'
start_urls = ['https://crawler-test.com/']
def parse(self, response):
links = response.xpath("//a")
for link in links:
link = link.xpath("@href").extract()
print(link)
yield
Como podemos observar lo primero que vamos tener es el import de la librería scrapy luego vamos a heredar a la clase Crawler scrapy.Spider.
En este caso el código es muy simple. Le vamos a dar un nombre al crawler con la variable name y luego le pasamos el URL que deseamos escanear con la variable start_urls.
Luego definimos una función que se llama parse que espera como parámetro el response de la carga del url.
Como podemos observar la variable links contiene todos los elementos de tipo anchor de la página que escaneamos.
Después de esto dentro del ciclo vamos encontrando cada uno de los Urls que tiene el sitio web y lo imprimimos para mostrarlo en el console.
Para poder ver el resultado debemos correr el siguiente comando scrapy runspider simpleCrawler.py
Esto nos da como resultado