Buscar y eliminar archivos duplicados en Linux

Buscar y eliminar archivos duplicados en Linux

Puede parecer innecesario preocuparse por los archivos duplicados cuando tiene terabytes de almacenamiento. Sin embargo, si le preocupa la organización de archivos, querrá evitar los duplicados en su sistema Linux. Puede encontrar y eliminar archivos duplicados a través de la línea de comandos o con una aplicación de escritorio especializada.

Use el comando «Buscar»

comando de búsqueda de duplicados

En caso de que no esté familiarizado con este poderoso comando, puede aprender sobre él en nuestra guía. Combinando find con otros comandos esenciales de Linux, como xargs, podemos obtener una lista de archivos duplicados en una carpeta (y todas sus subcarpetas). El comando primero compara los archivos por tamaño, luego verifica sus hashes MD5, que son bits únicos de información sobre cada archivo. Para buscar archivos duplicados, abra su consola, navegue hasta la carpeta deseada y escriba:

find -not -empty -type f -printf "%s\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate

Este one-liner hace lo siguiente:

find -not -empty -type f -printf "%s\n" – busca archivos normales que no estén vacíos e imprime su tamaño. Si le preocupa la organización de archivos, puede encontrar y eliminar fácilmente archivos duplicados a través de la línea de comandos o con una aplicación de escritorio especializada.

sort -rn – ordena los tamaños de archivo en orden inverso.

uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 – imprime solo líneas duplicadas. En este caso, nombres de archivos duplicados.

xargs -0 md5sum | sort | – ordena los hash MD5 de los archivos escaneados.

uniq -w32 --all-repeated=separate – compara los primeros 32 caracteres de hash MD5 e imprime aquellos que son duplicados.

Tenga en cuenta que este comando no elimina automáticamente los duplicados; solo genera una lista y puede eliminar archivos manualmente si lo desea. Si prefiere administrar sus archivos en una aplicación que ofrece más opciones a la vez, la siguiente solución podría ser adecuada para usted.

Emplear dupeGuru

DupeGuru es una aplicación multiplataforma que viene en tres ediciones: Estándar (SE), Música e Imagen. Está diseñado para encontrar archivos duplicados en función de varios criterios (nombres de archivo, tamaño de archivo, hash MD5) y utiliza coincidencias aproximadas para detectar archivos similares. Los usuarios de Windows y OS X pueden descargar los archivos de instalación desde el sitio web oficialy los usuarios de Ubuntu pueden extraer dupeGuru del repositorio:

sudo add-apt-repository ppa:hsoft/ppa
sudo apt-get update
sudo apt-get install dupeguru

duplicados-dupeguru-búsqueda

Para buscar duplicados, primero agregue algunas carpetas presionando el botón «+». Establecer un estado de carpeta en «Referencia» significa que el contenido de otras carpetas se compara con él. Antes de hacer clic en «Escanear», verifique el cuadro de diálogo «Ver -> Preferencias» para asegurarse de que todo esté configurado correctamente.

duplicados-dupeguru-preferenciasSi le preocupa la organización de archivos, puede encontrar y eliminar fácilmente archivos duplicados a través de la línea de comandos o con una aplicación de escritorio especializada.

El «Tipo de escaneo» varía según las ediciones de dupeGuru; en Estándar, puede comparar archivos y carpetas por contenido y nombre de archivo. La edición de imágenes ofrece una comparación por marca de tiempo EXIF ​​y «Bloques de imágenes», una opción que requiere mucho tiempo y que divide cada imagen en una cuadrícula y calcula el color promedio para cada mosaico. En la edición de música, puede analizar «Campos», «Etiquetas» y «Contenido de audio». Algunas configuraciones dependen del tipo de escaneo: «Ponderación de palabras» y «Coincidencia de palabras similares» solo funcionan cuando busca nombres de archivos. Por el contrario, la «Dureza del filtro» no se aplica cuando realiza un escaneo de «Contenido».

DupeGuru puede ignorar archivos pequeños y enlaces (accesos directos) a un archivo, y le permite usar expresiones regulares para personalizar aún más su consulta. También puede guardar los resultados de la búsqueda para trabajar en ellos más tarde. A los fanáticos de Apple les encantará el hecho de que dupeGuru es compatible con las bibliotecas de iPhoto y Aperture y puede administrar las bibliotecas de iTunes.

duplicados-dupeguru-detalles

Cuando dupeGuru encuentra duplicados, se abre una nueva ventana con archivos de referencia coloreados en azul y sus duplicados enumerados a continuación. La barra de herramientas muestra información básica y puede ver más sobre cada archivo si lo selecciona y hace clic en el botón «Detalles».

duplicados-dupeguru-acciones

Puede administrar archivos duplicados directamente desde dupeGuru: el menú «Acciones» muestra todo lo que puede hacer. Seleccione archivos marcando la casilla de verificación o haciendo clic en su nombre; puede seleccionar todos o varios archivos usando atajos de teclado (mantenga presionada la tecla Shift/Ctrl y haga clic en los archivos deseados). Si está interesado en las diferencias entre archivos duplicados, alterne Valores Delta. Los resultados se pueden volver a priorizar (para que los archivos enumerados como duplicados se conviertan en referencias) y clasificarse de acuerdo con varios criterios, como la fecha de modificación y el tamaño. los guía de usuario oficial de dupeGuru es útil y está claramente escrito, por lo que puede confiar en él si alguna vez se atasca.

Naturalmente, sería más práctico si dupeGuru no se dividiera en tres ediciones; después de todo, a la mayoría de los usuarios les encantan las soluciones integrales. Aun así, si no desea utilizar el find comando, dupeGuru proporciona una forma ordenada y rápida de erradicar duplicados de su sistema de archivos. ¿Puede recomendar otras herramientas para eliminar archivos duplicados? ¿Prefiere la línea de comandos para esta tarea? Dinos en los comentarios.

Experto Geek - Tu Guía en Tendencias Tecnológicas