Scrapear una SERP significa que: para una búsqueda en Google de cualquier palabra, quiero obtener los primeros 10 o n resultados que aparecen en la página de resultados del buscador en un documento.
Recientemente en un proyecto de Flat 101 nos surgió la necesidad de controlar los 100 primeros resultados de búsqueda de Google de forma recurrente para diferentes keywords.
¿Cómo lo hacemos para intentar acelerar el proceso lo máximo posible?
Existen varias formas diferentes, todas perfectamente válidas, aunque debo marcar un flag previo si pretendes implementarlo por tu cuenta: cuidado con realizar múltiples scrappings continuos de páginas, porque Google te puede detectar y saturarte a captchas durante un periodo de tiempo indeterminado, por lo que es recomendable tener comprados proxys y utilizarlos en el proceso.
Por mi perfil no-técnico, me ciño exclusivamente a herramientas externas que me puedan facilitar la labor sin necesidad de pedir ayuda a mis compañeros de desarrollo.
Herramienta 1: Mozbar para tu navegador
Utilizar un Add-on de navegador puede ser una solución rápida si no necesitas controlar excesivas keywords o un gran número de resultados.
Mozbar, además de la infinita información que ofrece a nivel de SEO, te da la posibilidad de sacar información a un CSV:
Si utilizamos “Export to CSV”, nos descargará automáticamente un archivo Excel a nuestro ordenador donde tendremos los 10 primeros resultados de búsqueda en formato separado por comas.
Pro Tip: Si queremos obtener más de 10 resultados, podemos ir a la configuración de Google y en “Ajustes de búsqueda” seleccionar que por defecto nos muestre más de 10, se puede elegir entre 10, 20, 30, 40, 50 y 100 resultados.
Herramienta 2: Oscraper para Chrome
Oscraper es otra extensión de navegador que ofrece lo mismo que Mozbar en su versión gratuita. Tiene una versión de pago que vale 17 dólares en la que puedes editar una serie de opciones para pulir el documento que obtienes:
- Extraer la URL con o sin http
- Extraer el dominio con o sin www
- Extraer solo el dominio sin las carpetas internas
- Extraer también las URLs de los anuncios de AdWords
- Excluir dominios que no quieras tener en cuenta
Herramienta 3: Simple SERP Scraper
Visto por primera vez en el evento Measure Camp de Madrid en la charla de MJCachón. Es una herramienta de escritorio que podemos encontrar dentro de Urlprofiler.com de forma gratuita, y que nos ofrece un sinfín de posibilidades:
Una vez instalada la herramienta en nuestro ordenador, con versión para MAC y para Windows, nos encontramos con las opciones principales:
- Qué versión de Google queremos extraer
- Cuántos resultados
- Cuánto retraso queremos aplicar entre búsquedas
Finalmente, introducimos las palabras claves que queremos medir y ya tenemos todo preparado. Tenemos bien visible la opción de introducir nuestros proxies para evitar posibles problemas.
¿Conoces otras formas de hacerlo? ¿Quizás con un import desde Excel? Puedes aportar tu granito de arena…
Para hacer un volcado rápido ( o relativamente pocos) las tecnicas que comentas son más que suficientes. Pero si realmente vas a hacer un volumen importante de peticiones a Google, ya hay que empezar a utilizar otras estrategias. En expireddomaintracker.com hemos pasado unas cuantas horas pegándonos con el señor Google y todas las “piedrecitas” que va poniendo.
Saludos desde Zgz,
Victor Martínez