El web scraping es el proceso de extraer datos, información o imágenes de un sitio web mediante un método automatizado. Piense en ello como una copia y pegado completamente automático.
Escribimos o usamos una aplicación para acceder a los sitios web que queremos y hacemos una copia de los elementos específicos que queremos de esos sitios web. Es mucho más preciso que descargar un sitio web completo.
Como cualquier herramienta, el web scraping se puede usar para bien o para mal. Algunas de las mejores razones para rayar sitios web serían clasificarlos en un motor de búsqueda según su contenido, comparación de precios o monitoreo de información de mercado. Incluso podrías usarlo como herramienta de investigación.
¿Cómo puedo raspar sitios web con Excel?
Lo crea o no, Excel ha tenido la capacidad de extraer datos de sitios web durante mucho tiempo, al menos desde Excel 2003. Es solo que el raspado web es algo en lo que la mayoría de la gente no piensa, y mucho menos está pensando en usar una hoja de cálculo para Termina el trabajo. Pero es sorprendentemente fácil y poderoso. Aprendamos a hacer esto creando una colección de atajos de teclado de Microsoft Office.
Encuentra los sitios que quieres rascar
Lo primero que haremos es buscar las páginas web específicas de las que queremos obtener información. Vayamos a la fuente y busquemos https://support.office.com/. Usaremos el término de búsqueda «atajos de uso frecuente». Podemos hacerlo más específico usando el nombre de la aplicación específica, como Outlook, Excel, Word, etc. Puede ser una buena idea marcar la página de resultados para que podamos volver a ella fácilmente.
Haga clic en el resultado de la búsqueda, «Métodos abreviados de teclado en Excel para Windows». Una vez en esta página, busque la lista de versiones de Excel y haga clic en Versiones más nuevas. Ahora estamos trabajando con lo último y lo mejor.
Podríamos volver a nuestra página de resultados de búsqueda y abrir los resultados de todas las demás aplicaciones de Office en sus propias pestañas y marcarlas. Es una buena idea, incluso para este ejercicio. Aquí es donde la mayoría de la gente se detendría para recopilar accesos directos de Office, pero no nosotros. Los vamos a poner en Excel para que podamos hacer lo que queramos con ellos, cuando queramos.
Abre Excel y rasca
Abra Excel y comience un nuevo libro de trabajo. Guarde el libro de trabajo como Accesos directos del escritorio. Si tiene OneDrive, guárdelo aquí para que el Guardado automático la función funcionará.
Una vez que se ha guardado el libro de trabajo, haga clic en el Datos lengua.
En la cinta de la pestaña Datos, haga clic en De la web.
la De la web se abre la ventana del asistente. Aquí es donde colocamos la dirección web o URL del sitio web del que queremos recuperar los datos. Cambie a su navegador web y Copiar la url.
Pegue la URL en el URL
Desde el campo del asistente web. Podríamos elegir usarlo en Básico o Avanzado Moda. El modo avanzado nos brinda muchas más opciones sobre cómo acceder a los datos del sitio web. Para este ejercicio, solo necesitamos el modo básico. Haga clic en Correcto.
Excel ahora intentará conectarse al sitio web. Puede que tarde unos segundos. Veremos una ventana de progreso, si ese es el caso.
la Navegador
Se abrirá la ventana y veremos una lista de tablas del sitio web a la izquierda. Cuando seleccionamos uno, veremos una vista previa de la tabla de la derecha. Vamos a seleccionarlo Atajos de uso frecuente mesa.
Puedes hacer click en el Vista web pestaña para ver el sitio web real, si necesitamos buscar la tabla que queremos. Cuando lo encontremos, podremos pinchar sobre él y quedará seleccionado para importar.
Ahora hacemos clic en el Cargar
en la parte inferior de esta ventana. Hay otras opciones entre las que podemos elegir que son más complejas y van más allá de nuestro primer raspado. Solo sé que están ahí. Las capacidades de web scraping de Excel son muy poderosas.
La tabla web se cargará en Excel después de unos segundos. Veremos los datos a la izquierda, donde el número 1 está en la imagen de abajo. Número 2 destaca la Pedido
utilizado para obtener datos del sitio web. Cuando tenemos varias consultas en un libro de trabajo, aquí es donde seleccionamos la que necesitamos usar.
Tenga en cuenta que los datos llegan a la hoja de trabajo como una tabla de Excel. Ya está configurado para que podamos filtrar u ordenar los datos.
Podemos repetir este proceso para todas las demás páginas web que tengan los accesos directos de Office deseados para Outlook, Word, Access, PowerPoint y cualquier otra aplicación de Office.
Mantenga los datos raspados actualizados en Excel
Como beneficio adicional para usted, aprenderemos cómo mantener nuestros datos recuperados actualizados en Excel. Es una excelente manera de ilustrar lo poderoso que es Excel para la extracción de datos. Incluso con eso, solo estamos haciendo el scratching más básico que Excel puede hacer.
Para este ejemplo, usemos una página web de información bursátil como https://www.cnbc.com/stocks/.
Revise lo que hemos hecho antes y copie y pegue la nueva URL de la barra de direcciones.
Irás a la ventana del navegador y verás las tablas disponibles. Seleccionemos los principales índices bursátiles de EE. UU.
Una vez recuperados los datos, veremos la siguiente hoja de trabajo.
A la derecha vemos la consulta de los principales índices bursátiles de EE. UU. Selecciónelo para que quede resaltado. Asegúrate de que estemos en el Herramientas de mesa pestaña y en la Diseño
región. Luego haga clic en la flecha hacia abajo debajo Actualizar. Luego haga clic en Propiedades de conexión.
En el Propiedades de la consulta ventana, debajo de la Usar
pestaña, podemos controlar cómo se actualiza esta información. Podemos establecer un período de tiempo específico para actualizar, o para actualizar cuando abramos el libro de trabajo la próxima vez, o para actualizar en segundo plano, o cualquier combinación de estos. Una vez que hayamos elegido lo que necesitamos, pinchamos en Correcto para cerrar la ventana y continuar.
¡Eso es! Ahora puede realizar un seguimiento de los precios de las acciones, resultados deportivos o cualquier otro dato que cambie con frecuencia desde una hoja de cálculo de Excel. Si está familiarizado con las ecuaciones y funciones de Excel, puede hacer casi todo lo que quiera con los datos.
Tal vez intente identificar las tendencias de las acciones, realice una serie de deportes fantásticos en el trabajo o tal vez simplemente esté al día con el clima. ¿Quién sabe? Tu imaginación y los datos disponibles en Internet son los únicos límites.