Cómo usar Wget para descargar sitios web a su PC

¿Alguna vez se preguntó si había una forma de descargar un sitio web sin un navegador web? Estás de suerte. Con el poder de la línea de comandos de Linux, todo es posible. Hay varios métodos para completar esta tarea, pero en este artículo nos estamos enfocando en wget.

¿Qué es wget?

wget es una utilidad de línea de comandos de GNU para recuperar contenido de servidores web. Como descargador, wget es muy poderoso por derecho propio. wget es capaz de trabajar con múltiples protocolos, como HTTP, HTTPS y FTP. Otras capacidades de la utilidad wget incluyen:

  • capacidad de ejecutarse en silencio o en segundo plano
  • integrado con scripts de Linux o trabajos CRON
  • puede ejecutar múltiples descargas a la vez
  • descarga archivos que requieren una contraseña

¿Por qué wget?

Si bien hay una multitud de herramientas que pueden realizar actividades en el sitio web, wget permite un amplio alcance. Le da al usuario la capacidad de funcionar sin un navegador web al:

  • descargar una copia completa de un sitio web
  • descargar un archivo específico de un sitio web
  • automatizar la recuperación de un archivo bajo demanda
  • obtener un documento de un portal de autenticación

wget también está integrado en la mayoría de las distribuciones de Linux, por lo que está disponible desde el principio y no requiere instalación adicional.

Conceptos básicos

Comenzar con wget es bastante simple. Primero, abra una terminal de Linux.

Una vez que se abre una ventana de terminal, puede ejecutar wget como se muestra a continuación:

Reemplace «URL» con la URL exacta del sitio web.

Url de Wget de Linux

Para reanudar un archivo descargado parcialmente, utilice un -c cambie su comando de la siguiente manera:

Para hacer que su descarga de wget sea silenciosa, agregue el -q cambie a su comando wget inicial:

Si no está seguro del uso correcto de las opciones dentro de wget, use lo siguiente:

Aparte de los sitios web, también puede descargar un archivo usando wget. Por ejemplo:

wget https://example.com/file.zip

Simplemente tomaría el archivo y lo guardaría en el directorio actual.

Si desea guardar en un nombre de archivo diferente o en una ubicación diferente, use el -O bandera.

wget https://example.com/file.zip -O ~/Documents/my_downloaded_file.zip

Opciones FTP

Como se señaló anteriormente, wget también es compatible con FTP. Si solo especifica un sitio FTP:

wget ftp://ftp.example.com

wget asumirá que desea un inicio de sesión anónimo. Alternativamente, puede especificar manualmente cosas como nombre de usuario y contraseña con las siguientes banderas:

  • --ftp-user=USER: especifica el nombre de usuario para iniciar sesión
  • --ftp-password=PASS: especifica la contraseña
  • --no-passive-ftp: desactiva el modo de transferencia pasiva

Tiempos de espera, reintentos y descargas fallidas

Finalmente, wget viene con varias opciones relacionadas con problemas de conexión al servidor y tiempos de espera. Por supuesto, no se pueden solucionar todos los fallos, pero los siguientes indicadores están destinados a ayudar a solucionar los problemas del servidor:

  • --tries=NUMBER: especifica el número de veces para reintentar la descarga
  • --retry-connrefused: Vuelve a intentar la descarga incluso si el servidor rechaza la conexión
  • --timeout=SECONDS: configuración global: cuánto tiempo esperar antes de los tiempos de espera
  • --wait=SECONDS: cuánto tiempo esperar entre descargas exitosas (si se repite)

¿Quién usaría wget?

Al leer esta publicación, puede estar pensando: «Esto suena complicado y mucho más difícil que usar un navegador web», pero cualquiera puede encontrar un uso para esta utilidad, ya sea como administrador de sistemas o programador. A continuación hay dos ejemplos de cómo uso este comando a lo largo de mi día, y mi rol a veces cambia.

Facilita mi trabajo como investigador de seguridad porque puedo programar este comando para descargar varios sitios web a la vez. Puedo hacer esto creando un archivo de texto (usando cualquier editor de texto) que contenga una cantidad de URL en una lista (una URL por línea). Ejecutando el siguiente comando con el -i switch, wget descargará cada sitio web de la lista.

wget -i download_file_name URL

Como administrador de sistemas, puedo obtener documentos de ubicaciones protegidas con contraseña con facilidad. Es posible que esto no lo ayude también sin conexión, pero al ejecutar wget allow, le permite agregar credenciales a un sitio.

wget --user=user_id --password=user_password URL

¡Ahí tienes! ¿Fue tan difícil como pensabas? Ser capaz de automatizar sus acciones con wget le ahorrará tiempo y le permitirá trabajar también sin conexión. ¿Qué tienes que perder?

Deje un comentario a continuación y háganos saber si lo encontró útil.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *