fbpx
Imagen de Freepik
Este proyecto está ahora en proceso de escalado. Trabajan para que pueda estar disponible a través de asociaciones y organismos, permitiendo que los pacientes realicen el proceso con autonomía, describe uno de los investigadores del Instituto Valenciano de Investigación en Inteligencia Artificial (VRAIN)

Por: Jordi Linares Pellicer, Universitat Politècnica de València Este artículo fue publicado originalmente en The Conversation. Lea el original.

El autor es Doctor en Informática y profesor en la Universitat Politècnica de València, Universitat Politècnica de València

Nuestra voz nos define. No es solo un instrumento para comunicar palabras: transmite nuestra personalidad, nuestra esencia. Una broma dicha con nuestra propia entonación tiene un significado diferente al de una voz sintética. Un “te quiero” susurrado con nuestro timbre único llega de una manera que ninguna voz robótica puede replicar.

Para los enfermos de esclerosis lateral amiotrófica (ELA), perder la voz significa perder una parte fundamental de su identidad. Esta enfermedad neurodegenerativa va despojando progresivamente a quienes la padecen de sus capacidades motoras, incluido el habla. Los sistemas de comunicación aumentativa les permiten seguir expresándose, pero a través de voces genéricas que no tienen nada que ver con quienes fueron.

En el grupo de investigación VertexLit, perteneciente al Instituto Valenciano de Investigación en Inteligencia Artificial (VRAIN) de la Universitat Politècnica de València, nos propusimos cambiar eso. Nuestro proyecto ha conseguido clonar la voz de Fran Vivó, un paciente de ELA, devolviéndole algo que parecía perdido para siempre.

Más allá de lo funcional

Este trabajo no pretendía resolver un problema estrictamente técnico. Los pacientes de ELA disponen ya de sistemas que les permiten comunicarse mediante texto o voces sintéticas predefinidas . Lo que nosotros buscábamos era diferente: devolver dignidad.

Cuando Fran puede volver a “hablar” con su propia voz, con su prosodia, su tono, sus particularidades, algo cambia profundamente en él y en sus familiares. No es una mejora práctica en sentido estricto, pero representa un aporte enorme a la calidad de vida emocional de los afectados. Es poder escuchar de nuevo a la persona que conocían, recordarla en algo tan propio como su manera de hablar.

El reto real no está en la tecnología en sí misma, sino en ajustarla a las fuentes disponibles. Porque cuando alguien pierde la voz, las grabaciones que conserva suelen ser escasas y de calidad variable: notas de audio en el móvil, vídeos familiares, quizás algún mensaje guardado por casualidad.

Inyectar emoción en las palabras

El proyecto ha implicado identificar las mejores herramientas y modelos disponibles, y realizar entrenamientos específicos que permitan no solo mantener las características originales de la voz, sino inyectar elementos de emoción y expresividad.

Los sistemas actuales de clonación de voz son capaces de replicar con notable fidelidad el tono y el timbre de una persona. Sin embargo, cuando hablamos no solo emitimos una señal acústica característica: también tenemos un ritmo particular, usamos muletillas, hacemos pausas en ciertos momentos y modulamos las frases de formas que nos identifican tanto como nuestra propia voz. Esta dimensión expresiva, lo que podríamos llamar nuestra “huella prosódica”, es precisamente lo que hemos querido capturar.

Para conseguirlo, utilizamos modelos de inteligencia artificial que analizan en profundidad las grabaciones disponibles del paciente. Estos modelos extraen patrones de entonación, variaciones dialectales, cadencias y otros rasgos que definen su manera única de expresarse. El resultado es un perfil detallado que va mucho más allá de las características puramente acústicas de la voz.

Con ese perfil, transformamos cualquier texto que se quiera generar antes de pasarlo al sistema de clonación. En lugar de sintetizar directamente las palabras escritas, las adaptamos para que reflejen cómo las diría realmente esa persona: con sus pausas, sus énfasis y sus giros característicos. De este modo, la voz generada no solo suena como el paciente, sino que habla como él.

Nuestra meta es crear una plataforma accesible que permita, sin tecnicismos, entrenar el sistema con grabaciones disponibles y generar nuevas locuciones. Queremos que tanto el enfermo como sus familiares puedan producir mensajes en un entorno de máxima privacidad, convirtiendo esta tecnología en un complemento humano a los sistemas de comunicación actuales.

Un puente entre el mundo y las personas

Vivimos un momento crucial para la inteligencia artificial. Por desgracia, recibe más atención por sus potenciales abusos que por los beneficios que ya está aportando en campos como la salud o la calidad de vida. Se habla mucho de regularla, y es importante distinguir: lo que hay que regular son sus aplicaciones, no la investigación ni la exploración de sus posibilidades.

Para quienes investigamos en este terreno, el sentido de la inteligencia artificial está en usarla como puente, como intermediario inteligente entre la complejidad del mundo y las personas, especialmente aquellas con necesidades especiales.

Este proyecto está ahora en proceso de escalado. Trabajamos para que pueda estar disponible a través de asociaciones y organismos, permitiendo que otros afectados realicen el proceso con autonomía. El objetivo es contemplar más posibilidades, no solo para enfermos de ELA, sino para todas las personas que ven afectada su comunicación.

Utilizar la inteligencia artificial como un elemento que nos asiste, nos complementa y se adapta a las características únicas de cada individuo. Eso, en definitiva, es lo que buscamos.

Jordi Linares Pellicer, Dr. en informática y profesor en la Universitat Politècnica de València, Universitat Politècnica de València