martes, 11 de junio de 2024

ChatGPT crea los datos con las relaciones estadísticas que quieras


ChatGPT es el Real Madrid de la IA generativa. Cada día sorprende más. Esta herramienta de IA es capaz de crear una base de datos con variables y casos, y generar las relaciones estadísticas que quieras. Y todo ello en segundos y sin escribir ni una línea de código. He escrito el siguiente prompt en ChatGPT donde pido que genere una base datos en la que haya relación estadísticamente significativa entre dos variables, pero que no haya relación con otra variable:

Quiero que generes una base de datos con 3 variables y 1200 casos: la primera variable es sexo y sus 2 posibles categorías son 1-hombre, 2-mujer. La segunda variable es Tolerancia con la prostitución que es una variable de 10 posibles categorías, es una escala cuyos valores van de 1-nunca a 10-siempre. La tercera variable es nivel educativo que tiene 4 categorías: 1-primarios, 2-secundarios, 3-post-secundarios, y 4-terciarios. Simula una respuesta de las posibles para cada uno de los 1200 casos. Hazlo de tal manera que al hacer un análisis de ANOVA de un factor, haya relación estadísticamente significativa y fuerte entre las variables sexo y tolerancia con la prostitución: que las mujeres tengan una media más alta que los hombres en tolerancia con la prostitución. También simula las respuestas para que no haya relación significativa entre las variables tolerancia con la prostitución y nivel educativo. Entrégame la base de datos en Excel.

Me ha contestado generando una base de datos en Excel con datos simulados. Puedes descargar la base de datos generada por ChatGPT.

Para comprobar que ChatGPT ha creado la base de datos con las relaciones significativas entre variables que solicité, he realizado análisis de ANOVA en el software estadístico SPSS. Como puedes ver en los resultados lo ha hecho tal como se lo he pedido. Ha creado una relación significativa y fuerte entre sexo y tolerancia de la prostitución, en la que las mujeres tienen un promedio más alto en tolerancia con la prostitución (7,26) que los hombres (5,63).

También me ha obedecido y al generar los datos, ha hecho que no haya relación significativa entre nivel educativo y tolerancia con la prostitución. Llama la atención que, sin pedírselo, ha generados grupos (submuestras) de similar tamaño para hombre y mujer, y para cada uno de los niveles educativos.

Pedí a ChatGPT que creara una base de datos de 1200 casos (personas) ya que es el mismo tamaño de muestra usado en España para la Encuesta Mundial de Valores, y solicité que creara esas relaciones entre variables porque es totalmente al revés de la realidad. El análisis de los datos reales de la Encuesta Mundial de Valores para España indican que sí existe una relación significativa entre nivel educativo y tolerancia con la prostitución, y que los hombres son más tolerantes con la prostitución que las mujeres, como puedes ver en la imagen.

He hecho otra prueba ahora pidiéndole datos para hacer un análisis multivariante de regresión lineal múltiple. Este ha sido el prompt: Quiero que generes una base de datos con 4 variables y 1200 casos: la primera variable es sexo y sus 2 posibles categorías son 1-hombre, 2-mujer. La segunda variable es Tolerancia con la prostitución que es una variable de 10 posibles categorías, es una escala cuyos valores van de 1-nunca a 10-siempre. La tercera variable es nivel educativo que tiene 4 categorías: 1-primarios, 2-secundarios, 3-post-secundarios, y 4-terciarios. La cuarta variable es nivel de ingresos que tiene 10 posibles categorias que van de 1-muy bajos a 10-muy altos. Simula una respuesta de las posibles para cada uno de los 1200 casos. Hazlo de tal manera que al hacer un análisis de regresión lineal con la VD Tolerancia con la prostitución haya relación estadísticamente significativa con las VI sexo (las mujeres son más tolerantes que los hombres) y nivel de ingresos (a más ingresos, más tolerancia). También simula las respuestas para que no haya relación significativa entre las variables tolerancia con la prostitución y nivel educativo. Entrégame la base de datos en Excel.

He realizado el análisis de regresión lineal múltiple (también regresión ordinal) y los resultados son tal cual como se los pedí: las personas más tolerantes con la prostitución son mujeres con altos ingresos, y la educación no influye.

La IA es capaz de crear los datos que necesites para demostrar una realidad que no existe, contraria a la real, o tal como te gustaría para tu tesis. Puede que estés pensando: qué peligro, cómo vamos a controlar esto, what the fuck. ¿Qué podemos hacer para preservar la investigación científica? No tengo respuesta para ello. Las revistas científicas han estado pidiendo a los investigadores que compartan los datos usados en los estudios para que editores o revisores puedan comprobar los análisis. Pero esta iniciativa no sirve de mucho porque la inteligencia artificial (IA) crea datos compartibles pero ficticios. Es decir, la persona que quiera engañar, podrá seguir engañando y mucho más que antes.

Nada de esto es nuevo. Ya existían herramientas de simulación, aunque quizás no al alcance de cualquiera y a tan bajo coste. Dice el filósofo Daniel Dennett que uno de los mayores peligros de la IA es que puede que llegue un momento que no confiemos en nadie. Ese momento está llegando a la investigación científica.

Imagen: Quino

Fuente: Networkianos

No hay comentarios.:

Publicar un comentario