Cómo funcionan las aplicaciones de identificación de música Guias y Tutoriales

Cómo funcionan las aplicaciones de identificación de música Guias y Tutoriales

Desde que comenzó en 1999, Shazam se ha utilizado para identificar canciones más de cincuenta mil millones de veces, y eso sin contar las identificaciones de Soundhound, MusicID y otras aplicaciones de reconocimiento de sonido.

Desde la perspectiva del usuario, es simple: inicie la aplicación, presione un botón y deje que su teléfono escuche la canción. Después de unos segundos, incluso con ruido de fondo y distorsión, la aplicación te dirá cuál es la canción. Funciona tan rápido y tan bien que casi parece magia, pero, como ocurre con la mayoría de las cosas mágicas en estos días, en su mayoría funciona con algoritmos.

¿Cuál es la idea detrás de estas aplicaciones?

aplicaciones-de-identificacion-de-musica

Shazam, Soundhound y otros servicios de identificación de música funcionan básicamente de la misma manera: tienen una gran base de datos de información de canciones, un algoritmo que puede extraer rápidamente información de la muestra de su canción y una aplicación que le permite interactuar con esas cosas. Técnicamente, ni siquiera necesitas un teléfono inteligente.

Shazam originalmente se podía usar en teléfonos plegables antiguos simplemente grabando una canción y enviándola por mensaje de texto al servicio. Soundhound en realidad ha ido un poco más allá al permitirle cantar o tararear en su aplicación, que comparan con una base de datos enviada por el usuario de otras grabaciones de canto/tarareo.

¿Cómo trabajan?

música-huella digital

En términos simples, el proceso se ve así:

  1. La base de datos de la aplicación tiene una colección masiva de «huellas dactilares» de canciones o pequeños datos sobre los patrones de sonido únicos de la canción.
  2. Cuando un usuario presiona el botón «Grabar», la aplicación escucha la música y crea una huella digital basada en los pocos segundos de audio que escucha.
  3. Esta huella dactilar se coteja con la base de datos de huellas dactilares existentes. Si su huella digital de diez segundos coincide con parte de una canción, obtiene el resultado de la canción (con suerte, correcto). Si no es así, obtendrá un error.

Si solo está buscando una explicación superficial, eso es todo lo que necesita saber. La parte realmente interesante es cómo obtienes esa huella digital.

Huellas de canciones

hash de reconocimiento de música

Todo comienza con un espectrograma, como el del gráfico anterior, tomado de un artículo escrito por uno de los fundadores de Shazam, Avery Wang. Este es esencialmente un gráfico con el tiempo en el eje x (horizontal), la frecuencia en el eje y (vertical) y la amplitud representada por diferentes niveles de intensidad de color. De este modo, cualquier secuencia de sonidos se puede convertir en un espectrograma, y ​​a cualquier punto del espectrograma se le puede asignar un conjunto de coordenadas. Así, las notas pueden ser números.

Si todo lo que necesita hacer es hacer coincidir algunos sonidos entre sí, puede detenerse aquí. Sin embargo, si desea buscar en una base de datos llena de millones de canciones, un espectrograma completo tiene demasiados puntos de datos para buscar a cualquier tipo de velocidad.

El gran avance en el reconocimiento de música fue darse cuenta de que puedes identificar sonidos con solo unos pocos datos: los picos o las partes más intensas. La eliminación de la mayoría de las partes de menor energía de una canción no solo reduce el tamaño del espectrograma, sino que hace que las aplicaciones sean menos susceptibles de identificar un ruido de fondo uniforme y sordo como parte de los sonidos de destino. Imagine el horizonte de una ciudad: las partes más identificables son las partes superiores de los edificios, no los pisos intermedios, y eso es lo que puede ver desde la lejanía.

Entonces, cada segundo de cada canción se reduce a solo algunos de los puntos de datos más intensos; todo en el horizonte de la ciudad se elimina excepto la parte superior. Pero eso todavía no es lo suficientemente eficiente como para que se pueda buscar de inmediato, por lo que el siguiente paso es «hash» esta secuencia de picos. Hashing simplemente toma un conjunto de entradas, las ejecuta a través de un algoritmo y les asigna una salida entera. En este caso, el hash se genera tomando dos de los picos de alta intensidad, midiendo el tiempo entre ellos y sumando sus dos frecuencias.

El resultado es una cadena de números, fácilmente almacenable y buscable. Cuando una computadora lee este hash, los reconocerá como representantes de frecuencia y tiempo-distancia. Una vez que todos los picos de la canción han sido identificados y procesados, la transformación está completa: la canción ahora tiene un número único de 32 bits que sirve como su ID en la base de datos. Más importante aún, cada segundo de la canción está representado por los números.

Cuando su teléfono escucha música, pasa por este proceso exacto: filtra todo menos los puntos más altos, los procesa y crea una huella digital para los pocos segundos que ha grabado. Una vez que esto esté completo, su teléfono solo necesita ver dónde aparecen las cadenas de números correspondientes en la base de datos, lo que le permite hacer coincidir las frecuencias detectadas y el tiempo con la canción correcta y devolvérsela en segundos.

musica y mas

Esta tecnología se ha utilizado más ampliamente para el reconocimiento de música, pero las aplicaciones de reconocimiento de sonido también pueden funcionar con películas, comerciales, programas de televisión, cantos de pájaros y más. Shazam y Soundhound son los más conocidos, pero ahora también puedes preguntarle a Google qué canción está sonando y obtener una respuesta precisa.

Y si se está preguntando, «¿Estas empresas realizan un seguimiento de las canciones sobre las que se pregunta?» la respuesta es sí.» Las estadísticas de identificación de música han sido capaz de predecir el éxito de canciones y artistas con un nivel de precisión bastante alto, y grandes sellos discográficos como Warner han contratado aplicaciones como Shazam para ayudar a encontrar artistas emergentes. Entonces, si quieres apoyar a un artista, ¡también puedes hacer tu parte y buscar su canción! Puedes ayudarlos a despegar.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Experto Geek - Tu Guía en Tendencias Tecnológicas