sábado, 4 de noviembre de 2023

Cómo la IA ha conseguido rescatar la voz de John Lennon


El 2 de noviembre de 2023 se añade una nueva fecha a la historia de The Beatles, pese a que dos de los miembros de la banda original han fallecido, gracias al uso de la inteligencia artificial (IA). El Día de Muertos (tradición con más peso en México) ha sido la fecha elegida por la banda para lanzar Now and Then, la última composición de la formación británica que cuenta con la participación de todos sus miembros originales, incluida la voz del fallecido John Lennon. Esta melodía surge de una maqueta del cantante grabada en la década de 1970. Con un proceso que se conoce como De-mix, que se basa en aprendizaje automático (una rama de la inteligencia artificial) y redes neuronales, se ha conseguido restaurar su voz. Un hito que Paul McCartney, miembro original de la formación, ha descrito como “el último” disco de la banda.

Cómo la IA ha permitido restaurar una grabación casera de John Lennon

Now and Then se trata de una composición de The Beatles creada a partir de una maqueta elaborada por John Lennon en la década de 1970. En el audio original se puede escuchar la voz del cantante acompañada de un piano de fondo, una grabación de poca calidad que s, lo que ha permitido una nueva orquestación y escuchar a Paul McCartney, George Harrison (fallecido en 2001), Ringo Star y John Lennon (fallecido en 1980) juntos en una canción por primera vez en años.

Según explicó Paul McCartney durante su paso por la BBC el 13 de junio, gracias a esta tecnología se ha podido restaurar una antigua maqueta de John Lennon que había sido grabada en un casete hace más de 40 años. “Cuando nos juntamos para hacer el que será el último álbum de The Beatles, era una demo que John tenía, y en la que empezamos a trabajar. Hemos sido capaces de separar su voz y tenerla pura a través de esta IA. Y hemos podido mezclar el disco como se haría normalmente”, aseguró el músico.

El canal oficial de The Beatles ha lanzado un documental que recoge la historia detrás de este tema: desde la grabación de la maqueta de la década de  1970, el momento en el que Yoko Ono (pareja sentimental de John Lennon) se la entregó a la banda en 1994 y los intentos de los miembros restantes por reconstruir esta canción en 1995, momento en el que Harrison pudo dejar su aportación a la composición antes de fallecer. En ese momento el grupo decidió abandonar el proyecto debido a la poca calidad de la maqueta y las limitaciones técnicas del momento. Limitaciones que gracias a este uso de la inteligencia artificial se han podido superar.

A diferencia de las versiones de artistas hechas con inteligencia artificial, que clonan la voz de los cantantes a partir de otras grabaciones, en este caso la máquina se entrenó para conseguir separar la voz de John Lennon del resto de instrumentos y así obtener una muestra limpia de su voz, según aseguró McCartney. Una técnica que ya fue utilizada durante la realización del documental Get Back sobre el grupo británico, dirigido por Peter Jackson y estrenado en 2021. “Pudo separar las voces con IA, y decirle a la guitarra ‘esto es una voz, eso es una guitarra, quita la guitarra”, detalló McCartney en la entrevista.

Después del primer anuncio de Paul McCartney, algunos contenidos aseguraron que se utilizó la inteligencia artificial para clonar la voz de John Lennon. En un tuit publicado el 22 de junio de 2023, el músico detalló que ha habido “cierta confusión y especulación” en torno a sus palabras, y que se difundieron “muchas conjeturas”. “No puedo decir demasiado en esta etapa, pero para ser claros, nada ha sido creado artificial o sintéticamente. Todo es real y todos tocamos en ello. Hemos limpiado unas grabaciones ya existentes, un proceso que ha durado años”, incidió el cantante.

El proceso utilizado De-mix se basa en aprendizaje automático que identifica los elementos de la canción y los separa

Este proceso se conoce como De-mix y, según recoge Abbey Road Studios, es una técnica que emplea “algoritmos entrenados con instrumentos específicos” para identificar y separar los elementos de una grabación. Una técnica que permite analizar antiguas pistas de audio en las que todos los instrumentos se grabaron a la vez, dividirlos uno a uno y así restaurar estas canciones.

Alejandro Padilla, ingeniero de sonido y maldito que nos ha prestado sus superpoderes, explica que este proceso de De-mix se basa en el machine learning (aprendizaje automático), y que en resumen se trata “de una operación matemática muy grande, pero relativamente sencilla”, diseñada que para que al introducir un archivo de audio “te devuelva diferentes instrumentos separados”. Un funcionamiento similar al de los modelos entrenados para identificar objetos dentro de imágenes, y que son capaces de diferenciar un objeto.

El propio Peter Jackson explicó cómo emplearon esta técnica durante la producción del documental Get Back para “coger una pista mono”, aquella en la que toda la música suena por un único canal, y “separar los instrumentos” gracias a esta tecnología. Un proceso que permitió aislar las voces de John Lennon y Paul McCarney del resto de la banda.

Según el director, esta tecnología no solo logró recoger muestras individuales de la voz de los artistas durante las actuaciones, sino que también permitió descubrir conversaciones inéditas entre los miembros de la banda, que intentaban ocultar haciendo ruido con los instrumentos para que no les escucharan.

Padilla destaca que “mezclar señales de audio” a la hora de grabar “es muy sencillo”, pero separarlas una vez ya han sido registradas “ha sido completamente imposible hasta hace relativamente poco”. “Hoy día puedes encontrar páginas web o plugins que lo hacen en unos segundos”, incide el ingeniero, que remarca que en este caso la IA no ha “compuesto” o “creado” algo nuevo, a diferencia de otros modelos como ChatGPT o DALL-E, y como se ha asegurado. Simplemente se ha procesado una señal de audio ya existente.

Fuente: Maldita Tecnologia

No hay comentarios.:

Publicar un comentario