¿QUÉ ES ACRELIA NEWS?
Plataforma de email marketing en español con todo lo que necesitas para diseñar, enviar y realizar de forma efectiva el seguimiento de tus campañas de email
REGISTRATE AHORATécnica para extraer información de una web de forma automática, generalmente por un bot aunque también puede hacerse manualmente. El resultado final es una hoja de datos en la que se han agregado los de varias páginas, por ejemplo para comparar precios de diferentes tiendas online.
El motivo por el que se necesitan los datos y la naturaleza de los mismos es lo que diferencia el buen scraping de aquel de ética dudosa. Lógicamente, es perfectamente lícito aplicarlo a una página propia con el objetivo de hacer una auditoria o analizar la evolución y resultados de los contenidos. Se utilizaría entonces, por ejemplo, para extraer títulos de las páginas, imágenes y textos de cualquier tipo, como descripciones de producto, precios, reseñas…
Cuando se scrapean otras web, incluyendo foros o portales, se puede recopilar la misma información, pero para analizar a la competencia, y también es posible recolectar datos de contacto de personas, como teléfonos, departamentos o correos electrónicos. Esta práctica aparentemente útil para áreas comerciales, se utiliza para crea bases de datos y venderlas, por lo que puede entrar en conflicto con el RGPD porque no se recoge su consentimiento para recibir mensajes de empresas.
Extraer datos de forma manual es posible, pero lleva mucho tiempo conseguir un volumen que sea significativo. En cambio, utilizar un bot simplifica mucho el proceso de tener que entrar en cada página individualmente y copiar y pegar la información en una tabla o base de datos.
Hay herramientas de web scraping que facilitan este trabajo, como Import.io o Mozendo. Solo es necesario registrarse en estos servicios e introducir la URL de la página que se quiere scrapear para obtener los resultados en pocos minutos, también de forma gráfica para facilitar su análisis comparativo. Es posible encontrar limitaciones de número de visitas o frecuencia de actualización, según la configuración del bot.
Es habitual que haya bots visitando una página web, pero no todos resultan de interés como ocurre con el de Google. Por eso es posible tratar de detener los no deseados bloqueando su IP, usando un firewall en el servidor o añadiendo un servicio que comprueba el origen de la visita como ReCaptcha.
Podría parecer que tener la información bajo un usuario y contraseña es suficiente para protegerla, pero algunos bots pueden saltárselos, por lo que deben implementarse mayores medidas de seguridad, como la doble confirmación del registro, para asegurar que es una persona quien está usando el servicio.