Cómo extraer y guardar imágenes de un archivo PDF en Linux

Cómo extraer y guardar imágenes de un archivo PDF en Linux

Puede convertir fácilmente archivos PDF a texto editable en Linux utilizando la herramienta de línea de comandos «pdftotext». Sin embargo, si hay imágenes en el archivo PDF original, no se extraen. Para extraer imágenes de un archivo PDF, puede utilizar otra herramienta de línea de comandos llamada «pdfimages».

NOTA: Cuando decimos que escriba algo en este artículo y hay comillas alrededor del texto, NO escriba las comillas a menos que se especifique lo contrario.

La herramienta «pdfimages» es parte del paquete poppler-utils. Puede comprobar si está instalado en su sistema e instalarlo si es necesario siguiendo los pasos de este artículo.

Para extraer imágenes de un archivo PDF usando pdfimages, presione «Ctrl + Alt + T» para abrir una ventana de terminal. Escriba el siguiente comando en el indicador.

pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

NOTA: Para todos los comandos que se describen en este artículo, reemplace la ruta del primer comando y el nombre del archivo PDF por la ruta y el nombre del archivo PDF original. La segunda ruta debe ser la ruta a la carpeta raíz donde desea guardar las imágenes extraídas. La palabra «imagen» al final de la segunda ruta representa lo que quieras que preceda a tu nombre de archivo. Los nombres de archivo de las imágenes se numeran automáticamente (000, 001, 002, 003, etc.). Si desea agregar texto al comienzo de cada imagen, ingrese ese texto al final de la segunda ruta. En nuestro ejemplo, cada nombre de archivo de imagen comenzará con «imagen», como imagen-001.ppm, imagen-002.ppm, etc. Se agrega un guión entre el texto que especifica y el número.

El formato de imagen predeterminado es PPM (mapa de píxeles portátil) para imágenes no monocromas o PBM (mapa de bits portátil) para imágenes monocromas. Estos formatos están diseñados para intercambiarse fácilmente entre plataformas.

NOTA: Puede obtener dos archivos de imagen para cada imagen en su archivo PDF. La segunda imagen de cada imagen está en blanco, por lo que podrá averiguar qué imágenes contienen las imágenes en el archivo por la miniatura del archivo en el administrador de archivos.

Para crear archivos de imagen .jpg, agregue la opción «-j» al comando, como se muestra a continuación.

pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

NOTA: También puede cambiar la salida predeterminada a PNG usando la opción «-png» oa TIFF usando la opción «-tiff».

El archivo de imagen principal de cada imagen se guarda como archivo .jpg. La segunda imagen en blanco es siempre un archivo .ppm o .pbm.

Si solo desea convertir imágenes en y después de una determinada página, use la opción «-f» con un número para indicar la primera página a convertir, como se muestra en el comando de muestra a continuación.

pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

NOTA: Hemos combinado la opción «-j» con la opción «-f» para obtener imágenes .jpg y hemos hecho lo mismo con la opción «-l» que se menciona a continuación.

Para convertir todas las imágenes antes y en una determinada página, utilice la opción «-l» (una «L» minúscula, no el número «1») con un número para indicar la última página a convertir, como se muestra a continuación.

pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

NOTA: Puede usar las opciones «-f» y «-l» juntas para convertir imágenes a un rango de páginas específico en el medio de su documento.

Si hay una contraseña de propietario en el archivo PDF, use la opción «-opw» y la contraseña entre comillas simples como se muestra a continuación. Si la contraseña del archivo PDF es una contraseña de usuario, utilice la opción «-upw» con la contraseña.

NOTA: Asegúrese de que haya comillas simples alrededor de su contraseña en el comando.

pdfimages -opw ‘contraseña’ -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

Para obtener más información sobre el uso del comando pdfimages, escriba «pdfimages» en el símbolo del sistema en una ventana de terminal y presione «Enter». El uso del comando se muestra con una lista de opciones disponibles para usar en el comando.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Experto Geek - Tu Guía en Tendencias Tecnológicas