R-20570-2018 -Audio Features Extraction and Segmentation for Video Synchronization with Music

El software desarrollado consiste en un módulo de análisis de sonido en tiempo real cuyo objetivo es extraer parámetros relacionados con la música que permitan sincronizar un contenido visual con dicha música. El contenido audiovisual pueden ser animaciones de video 3D por ordenador, láseres, luces, etc. El módulo de sonido se ha desarrollado en forma de DLL (librería de enlace dinámico) de forma que puede comunicarse con otro software de animación de video 3D o de gestión de iluminación. El software recibe bloques de audio digital (la música) que procesa en tiempo real y produce como resultado una serie de parámetros descriptivos de la misma que devuelve al programa principal para ser utilizados como referencia para la sincronización. Entre los parámetros analizados están: - Características del ritmo: La detección de los inicios de ritmo y los bpm (latidos por minuto) son muy importantes, ya que permitirán sincronizar los movimientos de la imagen con precisión. - Características del balance espectral: diferentes segmentos de música contienen diferentes instrumentos, generando diferentes huellas digitales espectrales. Este grupo de características puede proporcionar información importante sobre el color de la música en cada segmento. - Características estadísticas del espectro: utilizando la transformación de Fourier es posible analizar el espectro de la señal con gran detalle. El espectro en sí no se puede usar como característica debido a la gran cantidad de información que contiene, sin embargo, algunas características estadísticas interesantes extraídas de él pueden ser útiles. Por ejemplo: el centroide espectral, el factor de cresta, la llanura, la curtosis, etc. - Características estadísticas de tiempo: de la misma forma que el grupo anterior, algunas características estadísticas pueden extraerse de la señal directa en el dominio del tiempo. Aunque no son tan poderosos como los anteriores, pueden ser útiles en algunas ocasiones. Por ejemplo: envolvente de pico, valor rms, nivel promedio, tasa de cruce cero, etc. - Segmentación: una canción generalmente se compone de diferentes segmentos a menudo llamados intro, verso, coro, canto, instrumental, activación / desactivación de patadas, etc. Es muy difícil desarrollar un algoritmo para segmentar con precisión una canción. Incluso la segmentación humana es controvertida en algún momento, debido a la dificultad de definir qué es un segmento. De todos modos, empleando características de balance espectral, desarrollaremos un algoritmo confiable para la segmentación. Es importante decir que esta característica es la única que necesita el sonido completo para funcionar, por lo que no se puede utilizar en tiempo real con canciones que no se hayan analizado previamente. Con todo ello, es posible realizar sincronizar contenido visual con la música de modo que cree una experiencia

Ficha técnica

Tipo de tecnología SOFTWARE
Inventores José Javier López Monfort, Emanuel Aguilera Martí
Responsable López Monfort José Javier
Flyer de la Oferta Tecnológica 24742