Cómo convertir un archivo PDF a texto editable usando la línea de comandos en Linux

Cómo convertir un archivo PDF a texto editable usando la línea de comandos en Linux

Hay varias razones por las que es posible que desee convertir un archivo PDF en texto editable. Tal vez necesite revisar un documento antiguo y todo lo que tiene es la versión PDF. Convertir archivos PDF en Windows es fácil, pero ¿y si usa Linux?

No hay problema. Le mostraremos cómo convertir fácilmente archivos PDF a texto editable usando una herramienta de línea de comandos llamada pdftotext, que es parte del paquete “poppler-utils”. Es posible que esta herramienta ya esté instalada. Para comprobar si pdftotext está instalado en su sistema, presione «Ctrl + Alt + T» para abrir una ventana de terminal. Escribe el siguiente comando en el símbolo del sistema y presiona «Enter».

dpkg –s poppler-utils

NOTA: Cuando decimos que escriba algo en este artículo y hay comillas alrededor del texto, NO escriba las comillas a menos que se especifique lo contrario.

Si pdftotext no está instalado, escriba el siguiente comando en el símbolo del sistema y presione «Enter».

sudo apt-get install poppler-utils

Escriba su contraseña cuando se le solicite y presione «Enter».

Hay varias herramientas disponibles en el paquete poppler-utils para convertir archivos PDF a varios formatos, manipular archivos PDF y extraer información de archivos.

El siguiente es el comando básico para convertir un archivo PDF en un archivo de texto editable. Presione «Ctrl + Alt + T» para abrir una ventana de terminal, escriba el comando en el símbolo del sistema y presione «Enter».

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Cambie la ruta de cada archivo para que coincida con la ubicación y el nombre de su archivo PDF original y donde desea guardar el archivo de texto resultante. También cambie los nombres de los archivos para que coincidan con los nombres de sus archivos.

El archivo de texto se crea y se puede abrir como lo haría con cualquier otro archivo de texto en Linux.

El texto convertido puede tener saltos de línea donde no lo desee. Los saltos de línea se insertan después de cada línea de texto en el archivo PDF.

Puede mantener el diseño de su documento (encabezados, pies de página, paginación, etc.) del archivo PDF original en el archivo de texto convertido usando la marca «-layout».

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Si solo desea convertir un rango de páginas a un archivo PDF, use las marcas «-f» y «-l» (una «L» minúscula) para especificar la primera y la última página del rango que desea convertir.

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Para convertir un archivo PDF que está protegido y encriptado con una contraseña propietaria, use el indicador «-opw» (el primer carácter del indicador es una letra minúscula «O», no un cero).

pdftotext -opw ‘contraseña’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Reemplace la «contraseña» con la que se utilizó para proteger el archivo PDF original que se está convirtiendo. Asegúrese de que haya comillas simples, no dobles, alrededor de la contraseña.

Si el archivo PDF está protegido y cifrado con una contraseña de usuario, utilice el indicador «-upw» en lugar del indicador «-opw». El resto del comando es el mismo.

También puede especificar el tipo de carácter de final de línea aplicado al texto convertido. Esto es especialmente útil si planea acceder al archivo en un sistema operativo diferente como Windows o Mac. Para hacer esto, use la bandera «-eol» (el carácter del medio en la bandera es una letra minúscula «O», no un cero) seguida de un espacio y el tipo de carácter de final de línea que desea usar (» unix «,» dos «o» mac «).

NOTA: Si no especifica un nombre de archivo para el archivo de texto, pdftotext usa automáticamente la base del nombre del archivo PDF y agrega la extensión “.txt”. Por ejemplo, «file.pdf» se convertirá a «file.txt». Si el archivo de texto se especifica como «-«, el texto convertido se envía a stdout, lo que significa que el texto se muestra en la ventana Terminal y no se guarda en un archivo.

Para cerrar la ventana de la terminal, haga clic en el botón «X» en la esquina superior izquierda.

Para obtener más información sobre el comando pdftotext, escriba «pdftotext man page» en el indicador de una ventana de terminal.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Experto Geek - Tu Guía en Tendencias Tecnológicas