Volver atrás Tesis

Towards Practical HRTF Individualization: Machine Learning Approaches Using Visual Data

Imprimir

¿Quieres contarnos tu reto? Pincha aquí y te ayudamos a encontrar una solución

Fecha defensa

03/12/2025

Doctorando

Ariel Alvarez Martínez

Directores

José Javier López Monfort

Tutores

Resumen

El auge de las tecnologías inmersivas, como la realidad virtual y aumentada, ha intensificado la necesidad de un audio realista y personalizado. En el centro de estas experiencias se encuentra el audio binaural, que recrea la percepción de sonido 3D mediante auriculares. Su precisión depende de la Función de Transferencia Relacionada con la Cabeza (HRTF), un filtro que describe cómo la anatomía de una persona moldea el sonido. Aunque medir las HRTF personales ofrece la mejor precisión espacial, requiere equipamiento especializado y costoso, lo que lo hace poco práctico para usuarios comunes. Esta tesis aborda el desafío de la individualización de las HRTF mediante el desarrollo de métodos prácticos y accesibles que combinan datos visuales con aprendizaje automático. La hipótesis principal sostiene que los rasgos mor- fológicos de una persona¿especialmente la compleja forma del pabellón audi- tivo (pinna)¿pueden capturarse usando dispositivos de consumo comunes y emplearse para estimar HRTF personalizadas con suficiente precisión para aplica- ciones inmersivas. La investigación inicialmente exploró el uso de cámaras de profundidad de teléfonos inteligentes para crear modelos 3D de la cabeza y las orejas del oyente, ofreciendo una forma de bajo costo para recopilar datos geométricos utilizados en la simulación numérica de HRTF. Sin embargo, a medida que evolucionan los dispositivos de consumo, el enfoque se desplazó hacia métodos basados en imágenes 2D, que resultan más accesibles. Otra contribución es un flujo de trabajo semiautomatizado para la alineación de mallas y la extracción precisa del pabellón auditivo, desarrollado utilizando la base de datos a gran escala SONICOM. Experimentos adicionales con este conjunto de datos revelaron que la geometría del pabellón auditivo influye fuerte- mente en las señales de alta frecuencia de las HRTF, lo que indica que los modelos de cabeza simplificados pueden ser suficientes para muchas tareas de personal- ización. Este hallazgo motivó un enfoque más específico basado únicamente en imágenes de orejas para la predicción de HRTF. La tesis culmina con el diseño y evaluación de modelos de aprendizaje pro- fundo entrenados con imágenes de orejas (en particular del conjunto de datos HUTUBS), los cuales predicen con éxito los coeficientes armónicos esféricos de las HRTF y superan los métodos existentes. Sobre esta base, se propone un sistema completo de extremo a extremo: a partir de una sola foto lateral, detecta y recorta automáticamente la oreja, para luego predecir la magnitud de la HRTF de alta frecuencia del usuario mediante una red neuronal profunda modular. En conjunto, esta investigación ofrece nuevas metodologías y conjuntos de datos para la personalización de HRTF basada en datos visuales, junto con conocimientos teóricos y prácticos sobre el papel acústico de la geometría de la oreja. Representa un paso significativo hacia un audio binaural ampliamente accesible y fácil de usar, que permite un sonido espacial realista sin necesidad de herramientas ni equipos de medición especializados.

Palabras clave

HRTF; Deep Learnign;AI; Individualization;Pinna;Convolutional Networks.