Extraiga texto de archivos PDF y de imagen

Extraiga texto de archivos PDF y de imagen

¿Tiene un documento PDF del que desea extraer todo el texto? ¿Qué pasa con los archivos de imagen de un documento escaneado que desea convertir en texto editable? Estos son algunos de los problemas más comunes que he encontrado en el lugar de trabajo al trabajar con archivos.

En este artículo, hablaré sobre varias formas diferentes de intentar extraer texto de un PDF o una imagen. Los resultados de su extracción variarán según el tipo y la calidad del texto en el PDF o la imagen. Además, sus resultados variarán según la herramienta que utilice, por lo que es mejor probar tantas de las opciones a continuación como sea posible para obtener los mejores resultados.

Extraer texto de una imagen o PDF

La forma más fácil y rápida de comenzar es probar un servicio de extracción de texto PDF en línea. Estos son normalmente gratuitos y pueden proporcionarle exactamente lo que busca sin tener que instalar nada en su computadora. Aquí hay dos que he usado con muy buenos a excelentes resultados:

ExtraerPDF

extractopdf

ExtraerPDF es una herramienta gratuita para extraer imágenes, texto y fuentes de un archivo PDF. La única limitación es que el tamaño máximo del archivo PDF es de 10 MB. Es un poco pequeño; así que si tiene un archivo más grande, pruebe algunos de los otros métodos a continuación. Elija su archivo y luego haga clic en el Enviar archivo botón. Los resultados son normalmente muy rápidos y debería ver una vista previa del texto cuando hace clic en la pestaña Texto.

descargar texto

Extraer las imágenes del archivo PDF también es una ventaja adicional, ¡en caso de que lo necesite! En general, la herramienta en línea funciona muy bien, pero me he encontrado con algunos documentos PDF que me brindan resultados divertidos. El texto se extrae sin problemas, pero por alguna razón habrá un salto de línea después de cada palabra. Esto no es un gran problema para un archivo PDF corto, pero definitivamente un problema para archivos con mucho texto. Si esto le sucede, pruebe la siguiente herramienta.

OCR en línea

OCR en línea generalmente tienden a funcionar para documentos que no se convirtieron correctamente con ExtractPDF, por lo que es una buena idea probar ambos servicios para ver cuál le brinda el mejor resultado. El OCR en línea también tiene características más interesantes que pueden resultar útiles para cualquier persona que tenga un archivo PDF grande que solo necesite convertir texto en unas pocas páginas en lugar de en todo el documento.

Lo primero que debe hacer es crear una cuenta gratuita. Es un poco aburrido, pero si no crea una cuenta gratuita, solo convertirá parcialmente su PDF en lugar de todo el documento. Además, en lugar de solo poder cargar un documento de 5 MB, puede cargar hasta 100 MB por archivo con una cuenta.

ocr en línea

Primero, elija un idioma y luego elija qué tipo de formatos de salida desea para el archivo convertido. Tienes múltiples opciones y puedes elegir más de una si lo deseas. Bajo Documento de varias páginas, Puedes elegir Número de páginas luego elija solo las páginas que desea convertir. Luego, selecciona el archivo y hace clic en Convertir!

documentación de OCR en línea

Después de la conversión, se le llevará a la sección Documentos (si ha iniciado sesión) donde podrá ver cuántas páginas gratuitas le quedan y enlaces para descargar sus archivos convertidos. Parece que solo obtiene 25 páginas gratuitas por día, por lo que si necesita más que eso, tendrá que esperar un poco o comprar más páginas.

OCR en línea hizo un gran trabajo al convertir mis archivos PDF, ya que pudo mantener el diseño real del texto. En mi prueba, tomé un documento de Word que usaba viñetas, diferentes tamaños de fuente, etc. y lo convertí a PDF. Luego utilicé OCR en línea para convertirlo de nuevo al formato de Word y era aproximadamente un 95% igual que el original. Es bastante impresionante para mí.

Además, si está buscando convertir una imagen en texto, el OCR en línea puede hacerlo tan fácilmente como extraer texto de archivos PDF.

OCR en línea gratis

Ya que estábamos hablando de OCR de imagen a texto, permítanme mencionar otro buen sitio web que funciona muy bien con imágenes. OCR en línea gratis fue muy bueno y muy preciso al extraer texto de mis imágenes de prueba. Tomé algunas fotos de mi iPhone de páginas de libros, folletos, etc. y me sorprendió lo bien que pudo convertir el texto.

ocr en línea gratis

Elija su archivo, luego haga clic en el botón Descargar. En la siguiente pantalla hay algunas opciones y una vista previa de la imagen. Puede recortarlo si no desea hacer el OCR en su totalidad. Luego, simplemente haga clic en el botón OCR y el texto convertido aparecerá debajo de la vista previa de la imagen. Tampoco tiene limitaciones, lo cual es realmente genial.

Además de los servicios en línea, hay dos convertidores de PDF gratuitos que quiero mencionar en caso de que necesite software que se ejecute localmente en su computadora para realizar las conversiones. Con los servicios en línea, siempre necesitará una conexión a Internet y es posible que esto no sea posible para todos. Sin embargo, noté que la calidad de las conversiones de los programas gratuitos era significativamente menor que la de los sitios web.

Extractor de texto A-PDF

Extractor de texto A-PDF es un software gratuito que extrae bastante bien texto de archivos PDF. Una vez que lo haya descargado e instalado, haga clic en el botón Abrir para elegir su archivo PDF. Luego haga clic en Extraer texto para iniciar el proceso.

extractor de apdf

Le pedirá una ubicación para almacenar el archivo de salida de texto y luego comenzará a extraer. También puede hacer clic en el Opción , que le permite elegir solo ciertas páginas para extraer y el tipo de extracción. La segunda opción es excelente porque extrae el texto en diferentes diseños y vale la pena probar las tres para ver cuál le brinda el mejor resultado.

Controlador PDF2Text

Controlador PDF2Text hace un buen trabajo extrayendo texto. No tiene otra opción; simplemente agrega archivos o carpetas, convierte y espera lo mejor. Funcionó bien en algunos archivos PDF, pero para la mayoría de ellos hubo muchos problemas.

pdf2text

Simplemente haga clic en Agregar archivos y luego haga clic en Convertir. Cuando se complete la conversión, haga clic en Examinar para abrir el archivo. Su kilometraje variará con este programa, así que no espere mucho.

Además, vale la pena mencionar que si se encuentra en un entorno corporativo o puede obtener una copia de Adobe Acrobat del trabajo, realmente puede obtener resultados mucho mejores. Obviamente, Acrobat no es gratuito, pero ofrece opciones para convertir archivos PDF a formatos Word, Excel y HTML. También hace el mejor trabajo para mantener la estructura del documento original y convertir texto complicado.

Experto Geek - Tu Guía en Tendencias Tecnológicas