Resumen
El auge de las tecnologías inmersivas, como la realidad virtual y aumentada, ha
intensificado la necesidad de un audio realista y personalizado. En el centro
de estas experiencias se encuentra el audio binaural, que recrea la percepción
de sonido 3D mediante auriculares. Su precisión depende de la Función de
Transferencia Relacionada con la Cabeza (HRTF), un filtro que describe cómo la
anatomía de una persona moldea el sonido. Aunque medir las HRTF personales
ofrece la mejor precisión espacial, requiere equipamiento especializado y costoso,
lo que lo hace poco práctico para usuarios comunes.
Esta tesis aborda el desafío de la individualización de las HRTF mediante
el desarrollo de métodos prácticos y accesibles que combinan datos visuales
con aprendizaje automático. La hipótesis principal sostiene que los rasgos mor-
fológicos de una persona¿especialmente la compleja forma del pabellón audi-
tivo (pinna)¿pueden capturarse usando dispositivos de consumo comunes y
emplearse para estimar HRTF personalizadas con suficiente precisión para aplica-
ciones inmersivas.
La investigación inicialmente exploró el uso de cámaras de profundidad de
teléfonos inteligentes para crear modelos 3D de la cabeza y las orejas del oyente,
ofreciendo una forma de bajo costo para recopilar datos geométricos utilizados
en la simulación numérica de HRTF. Sin embargo, a medida que evolucionan
los dispositivos de consumo, el enfoque se desplazó hacia métodos basados en
imágenes 2D, que resultan más accesibles.
Otra contribución es un flujo de trabajo semiautomatizado para la alineación
de mallas y la extracción precisa del pabellón auditivo, desarrollado utilizando
la base de datos a gran escala SONICOM. Experimentos adicionales con este
conjunto de datos revelaron que la geometría del pabellón auditivo influye fuerte-
mente en las señales de alta frecuencia de las HRTF, lo que indica que los modelos
de cabeza simplificados pueden ser suficientes para muchas tareas de personal-
ización. Este hallazgo motivó un enfoque más específico basado únicamente en
imágenes de orejas para la predicción de HRTF.
La tesis culmina con el diseño y evaluación de modelos de aprendizaje pro-
fundo entrenados con imágenes de orejas (en particular del conjunto de datos
HUTUBS), los cuales predicen con éxito los coeficientes armónicos esféricos de las
HRTF y superan los métodos existentes. Sobre esta base, se propone un sistema
completo de extremo a extremo: a partir de una sola foto lateral, detecta y recorta
automáticamente la oreja, para luego predecir la magnitud de la HRTF de alta
frecuencia del usuario mediante una red neuronal profunda modular.
En conjunto, esta investigación ofrece nuevas metodologías y conjuntos de
datos para la personalización de HRTF basada en datos visuales, junto con
conocimientos teóricos y prácticos sobre el papel acústico de la geometría de la
oreja. Representa un paso significativo hacia un audio binaural ampliamente
accesible y fácil de usar, que permite un sonido espacial realista sin necesidad de
herramientas ni equipos de medición especializados.