Si está copiando y pegando cosas de páginas web y colocándolas manualmente en hojas de cálculo, no sabe qué es el raspado de datos (o raspado web), o sabe qué es pero no le gusta mucho la idea de aprender a codificar solo para ahorrarse unas horas de hacer clic.
De cualquier manera, hay muchas herramientas de extracción de datos sin código que pueden ayudarlo, y la extensión de Chrome de Data Miner es una de las opciones más intuitivas. Si tiene suerte, la tarea que está tratando de hacer ya estará incluida en el libro de recetas de la herramienta, y ni siquiera tendrá que pasar por los pasos de apuntar y hacer clic para crear la suya propia.
¿Cómo funciona el minero de datos?
Data Miner lo ayuda a obtener datos de las páginas web y a archivos Excel/CSV bien formateados al revisar el texto de las páginas que ha cargado. Eso significa que deberá sentirse al menos lo suficientemente cómodo con HTML para reconocer algunos patrones, pero nada demasiado extenso. Las habilidades avanzadas de HTML y/o JavaScript ciertamente ayudarán con algunas tareas, pero no son necesarias para la mayoría de las cosas. También debe tener al menos habilidades básicas de hoja de cálculo para que pueda estar seguro de que su salida está limpia y organizada.
1. Configurar el minero de datos
Usando Chrome u otro navegador Chromium, instalar la extensión. El ícono del pico de la extensión aparecerá en su barra de herramientas y al hacer clic en él lo llevará a una página donde puede configurar una cuenta. La versión gratuita le brinda 500 raspaduras al mes, lo que probablemente sea suficiente para usted, a menos que sea algo que haga todos los días.
2. Cargue los datos
Primero, navegue a la página de la que desea extraer datos. Si tiene varias páginas de datos o algunos de ellos están ocultos detrás de los botones, está bien, hay formas de lidiar con eso. Por ahora, solo necesitará una muestra representativa para que el programa sepa qué buscar.
3. Busque una receta
Luego, abra Data Miner y verifique la pestaña «Público» para las recetas existentes. Si está en un sitio popular, es posible que otra persona ya haya creado un proceso para obtener los datos que está buscando, lo que le ahorraría bastante tiempo. Sitios como Google, Amazon y Twitter, por ejemplo, tienen muchas recetas disponibles para ayudarlo a descargar instantáneamente enlaces, precios, texto y otros datos. Puede probar las recetas haciendo clic en el botón «Ejecutar» para ver una vista previa de la hoja de cálculo que genera Data Miner. También puede modificar las recetas existentes para que se ajusten a sus necesidades presionando el botón «Editar».
4. Tipo de página
De acuerdo, entonces ninguna receta prefabricada funcionó para ti. Está bien, puedes hacer el tuyo propio. Simplemente haga clic en el botón «Nueva receta» para comenzar.
Su primera opción será «Página de lista» o «Página de detalles».
Seleccione «Página de lista» si está tratando de obtener varias filas de datos de una sola página. Por ejemplo, es posible que desee descargar el enlace y el título de la página de cada resultado de búsqueda u obtener la fecha y el contenido de las publicaciones en un feed. Este es probablemente el tipo más común y el que usaremos aquí como demostración. (Los pasos para una página de detalles son esencialmente los mismos).
Seleccione «Página de detalles» si tiene mucha información diferente sobre una cosa en una sola página: una página de producto, por ejemplo, donde necesita obtener su precio, descripción, enlace y calificación y poner todo en una sola fila .
Paso 5: Haz tus filas
Presione el botón «Buscar» y mueva el mouse hasta que el cuadro de selección amarillo cubra todos los datos que necesitaría para una sola entrada en su hoja de cálculo final. Por ejemplo, si está descargando resultados de búsqueda, deberá resaltar un área lo suficientemente grande para incluir el título, la URL y la descripción, cada uno de los cuales puede colocar en columnas separadas en el siguiente paso. Para hacer su selección, presione la tecla Shift. No se preocupe si hace clic accidentalmente; Data Miner guarda todo el progreso de su receta incluso si navega fuera de la página.
Luego querrá marcar al menos una de las casillas en la sección «Clases de elementos» o «Tipo de elemento HTML». Idealmente, verá que la selección se replica para cubrir todos los elementos de la página que se encuentran en la misma categoría que el que seleccionó.
Si encuentra que el selector no cubre todo lo que necesita, intente seleccionar solo uno de los elementos y presione «Seleccionar principal». Esto hará que la caja sea más grande y probablemente capture todo lo que necesitas. De lo contrario, es posible que deba profundizar un poco en el HTML e identificar las clases y los tipos de elementos que necesita. En caso de duda, presione «Seleccionar principal» hasta que el cuadro sea lo más grande posible sin cubrir más de una entrada de la lista, ya que esto le dará más flexibilidad al seleccionar columnas.
Data Miner le ofrece la opción «Ver HTML del elemento» en la parte inferior y también le permite escribir selectores personalizados. Si quiere decir, tome todos los enlaces en una página con la clase «producto», simplemente puede escribir a.product
. Aquí es donde algunos conocimientos básicos de HTML/CSS realmente serán útiles.
Una vez que regrese al menú de la fila principal, debería ver un «Recuento de filas» con la cantidad de entradas que su receta creará en una hoja de cálculo. Si no está capturando todo, deberá volver a verificar su selección de fila.
6. Divide tus datos en columnas
Una vez que haya seleccionado todos los datos para sus filas, es hora de que todo se vea bien subdividiéndolo en diferentes categorías de columnas. Cada selección que haga aquí debe ser una subsección del cuadro que seleccionó para sus filas.
Para hacer una columna, simplemente escriba un nombre para ella y use el botón Buscar para seleccionar lo que desea extraer, tal como lo hizo con las filas. Los datos más comunes probablemente serán texto, URL o URL de imagen. Obtener direcciones URL al pasar el mouse sobre los enlaces de texto puede ser un poco complicado; es posible que deba presionar «seleccionar padre» hasta que llegue a un nivel en el que el tipo de elemento sea <a>
que es la etiqueta HTML para enlaces.
Para asegurarse de tener el tipo correcto de datos en su columna, simplemente presione el ícono del ojo en el lado derecho del nombre de cada columna, al lado del número que muestra cuántas columnas se seleccionaron. Esto le mostrará una vista previa de cada entrada de fila para esa columna. Si algo está mal, regrese y modifique las etiquetas y los tipos que eligió para identificar las filas. No tenga miedo de abrir el visor HTML y verifique los patrones asociados con los datos que está tratando de capturar.
7. Dígale a Data Miner cómo llegar a la página siguiente
Si tiene varias páginas de datos para extraer, probablemente no quiera hacer clic en cada una y ejecutar su receta una y otra vez. Para evitar eso, simplemente dígale a Data Miner dónde encontrar el botón de navegación en el que debe hacer clic para ir a la página siguiente. Tenga cuidado de no decirle que haga clic en algo como «Página 2», ya que luego irá a, bueno, Página 2. Nuevamente, asegúrese de que está seleccionando un <a>
y utilice el botón Probar navegación para asegurarse de que funciona.
8. Dígale a Data Miner dónde hacer clic o desplazarse para cargar datos
Algunas páginas no cargan datos hasta que haces clic en algo o te desplazas hacia abajo. Afortunadamente, Data Miner también puede hacer estas cosas. Use la herramienta «Buscar» en la parte superior (ya debería ser bastante bueno en eso) para seleccionar el elemento que necesita manipular, luego coloque el selector en el cuadro apropiado y pruébelo para asegurarse de que funciona.
Averiguar exactamente qué selector activará el elemento o la barra de desplazamiento infinita puede ser complicado, pero el conocimiento básico de HTML y algunas pruebas y errores lo llevarán bastante lejos aquí. La mayoría de las cosas que deberá manipular aquí están basadas en JavaScript, pero Data Miner solo necesita conocer el selector de CSS asociado con la acción para activarlo, por lo que no debería tener que jugar con ningún código en la mayoría de los casos.
El siguiente paso también le permite agregar JS personalizado para hacer prácticamente lo que quiera, pero eso es bastante avanzado y va más allá de lo que necesitamos para el raspado básico.
9. Guarda y ejecuta la receta.
¡Felicidades! Ahora es el momento de ver si todo salió bien. Ejecute la receta en la página en la que se encuentra y verifique la vista previa para ver si sus filas y columnas están haciendo lo que se supone que deben hacer. Si no, puede volver atrás y editar la receta.
Si todo se está comportando como debería, puede usar el botón «Página siguiente» para decirle al raspador cuántas páginas debe rastrear y qué tan rápido debe ir (ir demasiado rápido puede hacer que el sistema lo marque como un bot).
Una vez que tenga todos los datos que necesita, puede elegir qué formato de archivo desea usar para descargarlo.
Tengo problemas; ¿hay una manera mas facil?
Si el programa Data Miner no funciona para usted, hay muchas otras herramientas de raspado de datos disponibles: ParseHub, Scraper, Octoparse, Import.io, VisualScraper, etc. Algunas de ellas pueden tener interfaces más intuitivas y más automatización, pero aún necesitará saber al menos un poco sobre HTML y cómo se organiza la web. Lo que hace que Data Miner sea especialmente agradable para los principiantes es su biblioteca de recetas de colaboración colectiva, que podría ayudarlo a evitar incluso el más mínimo encuentro con el código. Eso, combinado con su generoso paquete mensual gratuito de scrapes, lo convierte en una herramienta muy decente para la mayoría de las necesidades.