martes, 4 de abril de 2023

Cómo los estafadores pueden emplear la inteligencia artificial para suplantar la voz de nuestros conocidos


La inteligencia artificial (IA) es noticia y estamos viendo más aplicaciones que nunca: modelos conversacionales como ChatGTP, que nos permite hablar con una máquina y preguntarle todo tipo de cosas (aunque comete fallos), otros chatbots incorporados a buscadores por los que apuestan las grandes tecnológicas o voces sintéticas para devolverle la posibilidad de hablar a aquellos que la han perdido. Pero los timadores también han comenzado a utilizar esta tecnología para llevar a cabo sus estafas. En concreto, están utilizando la IA para suplantar la voz de conocidos.

Hay timadores que han empleado voces clonadas a través de la inteligencia artificial para engañar a sus víctimas

Es el caso de Ruth Card y Greg Grace, matrimonio estadounidense que recibió una supuesta llamada telefónica de su nieto pidiendo auxilio. Según relata la pareja, en la llamada una voz que sonaba a la de su familiar explicaba que se encontraba en prisión sin teléfono o cartera, y que necesitaba dinero para pagar la fianza. El matrimonio incide en que pudieron notar “el miedo” en la voz de su ser querido, y que eso fue lo que les llevó a actuar, según recoge The Washington Post.

Tras sacar cerca de 3.000 dólares canadienses en un cajero, el matrimonio se dirigió a una segunda oficina para sacar más dinero. Pero en ese momento uno de los gestores del banco detuvo a la pareja y les explicó que habían vivido otro caso similar recientemente que cumplía el mismo patrón: una supuesta llamada de auxilio de un familiar. Fue en ese momento cuando ambos descubrieron que no era su nieto quién estaba al teléfono, sino que los timadores habían conseguido replicar su voz utilizando la tecnología de la inteligencia artificial para intentar hacerse con su dinero.

No es el único caso en el que se ha empleado una voz clonada a través de inteligencia artificial para suplantar una identidad y cometer estafas. The Wall Street Journal recogió en 2019 el caso de una compañía energética que recibió una llamada falsa de su CEO pidiendo una transferencia de 220.000 euros. También en 2020 varios timadores clonaron la voz del director de otra compañía para intentar hacerse con 35 millones de dólares, asegura Forbes.

La inteligencia artificial aprende a imitarnos a partir de muestras de nuestra voz y horas de entrenamiento

Desde Maldita.es os hemos hablado en diferentes ocasiones de cómo la inteligencia artificial, en concreto la tecnología del deepfake, permite crear vídeos manipulados a partir de vídeos reales en los que se sustituye la cara, el cuerpo o la voz de una persona. Estas herramientas se han utilizado, por ejemplo, para replicar la voz de cantantes como Lady Gaga o Ariana Grande y hacer versiones de temas que en realidad nunca han cantado.

Para que la máquina sea capaz de imitar a estas cantantes se utilizan pistas con una buena calidad de audio en las que solo se escuche su voz y se entrena a la inteligencia artificial durante varios días hasta que consigue reproducir el timbre y las características de estas artistas. Pero, ¿cómo es posible que los timadores pudieran recrear la voz del nieto de Ruth Card y Greg Grace? ¿Se pueden dar casos similares en España?

Para responder a esta pregunta nos hemos puesto en contacto con Roberto Carreras, fundador de Voikers, consultora especializada en el desarrollo de proyectos de inteligencia artificial conversacional, que nos explica cómo funciona esta tecnología. “Las voces creadas con inteligencia artificial se desarrollan enseñándole a una máquina cómo hablamos, nuestro lenguaje”, explica el experto.

Para ello es necesario transformar el sonido a una representación visual que la inteligencia artificial sea capaz de interpretar. “La máquina transforma el sonido en un espectrograma de MEL (un tipo de visualización de las ondas sonoras adaptada a la forma que tenemos de escuchar los humanos) y después estudia cómo nuestra voz se sitúa dentro de este espectro. Copiando esos rangos es cómo aprende a hablar como hablamos nosotros”, detalla Carreras.

Esta tecnología aún está lejos del alcance de los timadores, según los expertos, pero hay que ser conscientes de la posibilidad

Este procedimiento se puede emplear para varios propósitos, como la generación de voces sintéticas a partir de combinaciones de diferentes grabaciones para dar lugar a una voz nueva o la clonación de una voz en específico. Es el ejemplo de VALL-E, un modelo de lenguaje realizado por Microsoft que permite imitar el habla de una persona a partir de tres segundos de grabación, según asegura la propia desarrolladora, que también advierte de que esta tecnología podría emplearse de forma fraudulenta para suplantar otras identidades.

Pero Carreras hace una llamada a la calma y afirma que esta tecnología aún está lejos del alcance de los estafadores. “Nadie puede utilizar VALL-E con alegría, hay que recibir una aprobación de la compañía”, argumenta el experto, que detalla que este modelo ha necesitado de más de 60.000 horas de audio para poder desarrollarse. Un despliegue que solo está al alcance de grandes empresas tecnológicas, afirma.

Estos modelos aún están lejos de imitar a la perfección la complejidad del lenguaje, asegura el experto. “Al final la voz forma parte de nuestra personalidad, y no sólo por lo que contamos, sino por cómo lo contamos. La prosodia, la forma de entonar… por mucha calidad que este modelo tenga, hay un punto en el que estas voces suenan raro”, incide Carreras.

Una tarea que se complica en el español ya que hay menos proyectos y modelos entrenados en este idioma. “Prácticamente nadie puede copiar tu voz con solo unos segundos. Se hacen cosas, pero de mala calidad. Es difícil que esa voz pueda servir para tener una conversación por teléfono”, declara el fundador de Voikers, que afirma que en sus proyectos han sido necesarias más de 20 horas de grabación para poder tener resultados de calidad. Por eso, el experto considera que de momento hay que estar “tranquilos” y que aún no es un timo viable a gran escala: “Es lógico que vayamos viendo estafas de este tipo y serán más frecuentes. Pero si la comparamos con otro tipo de estafas que vemos día a día, ocupan un número ínfimo”.

Consejos para evitar ser víctima de una estafa a través de voces clonadas

En cualquier caso, podemos tener en cuenta estos consejos que da Carreras y el INCIBE para evitar caer en este tipo de timos:

Sospecha de supuestas llamadas de conocidos a través de números extraños: desde Maldita.es hemos advertido de otros timos en los que se engaña a familiares asegurando que su número de teléfono está roto o inoperativo. En caso de duda, ponte en contacto con tus personas cercanas a través del teléfono habitual para comprobar que todo está bien.
  • Analiza si pasa mucho tiempo entre una pregunta y una respuesta: esta tecnología no es capaz de generar respuestas en tiempo real, por lo que hay un espacio de tiempo desde que hacemos una pregunta hasta que obtenemos una respuesta. Si notas que ese tiempo es demasiado largo, sospecha.
  • En caso de duda haz preguntas personales que solo tus conocidos sean capaces de responder.
  • Limita la exposición de información personal: cuanta más información publiquemos en línea más sencillo será para los delincuentes suplantarnos. Es importante ser consciente de que la exposición en redes sociales conlleva riesgos asociados.
  • Revisa configuraciones y ajustes de privacidad en los servicios que utilices para evitar que el proveedor almacene la información registrada a través de la voz y audio, o para configurar borrados automáticos. Por ejemplo, el centro de seguridad de Google permite esta opción.
Fuente: Maldita.es

No hay comentarios.:

Publicar un comentario