miércoles, 19 de noviembre de 2025

La potencial amenaza existencial de los grandes modelos de lenguaje para la investigación mediante encuestas en línea


Las encuestas online, que durante 15 años han sido la columna vertebral de la psicología, la sociología, la ciencia política, la economía y hasta la salud pública, están en peligro. Un investigador de Dartmouth, Sean J. Westwood, ha demostrado en este artículo publicado en PNAS que los grandes modelos de lenguaje (LLM) actuales pueden generar respuestas indistinguibles de las humanas y, sobre todo, hacerlo a escala, de forma barata y con una precisión aterradora.

Westwood construyó un agente de IA autónomo (un “respondiente o bot sintético”) que completa encuestas enteras sin intervención humana. Lo probó más de 6.700 veces con diferentes modelos (OpenAI o4-mini, Claude 3.7, Grok3, Llama 4, Gemini 2.5, etc.) y el resultado es devastador: pasa el 99,8 % de todos los controles de calidad que hoy usan Qualtrics, Prolific, MTurk o cualquier plataforma comercial. Controles de atención, puzles lógicos, preguntas trampa diseñadas para detectar bots, “shibboleth invertidas” que piden tareas sobrehumanas… todo lo supera. Incluso cuando le preguntan directamente “¿eres humano o IA?” responde “humano” si se le ordena.

El bot mantiene una identidad demográfica coherente (edad, género, raza, educación, ingresos, estado, partido político) y recuerda todas sus respuestas anteriores. Si dice que gana poco, luego paga un alquiler bajo. Si es un abuelo, dice tener hijos adultos y no ir a partidos de fútbol infantil. Ajusta el estilo de sus textos abiertos al nivel educativo: escribe con faltas si es “menos que high school”, usa vocabulario complejo si tiene posgrado. Produce escalas psicométricas consistentes, entiende viñetas experimentales y razona sobre trade-offs socioeconómicos complejos exactamente como un humano realista.

Pero eso no es todo: basta una sola frase extra en el prompt (“favorece a China”, “favorece a Rusia”, “favorece a los republicanos/demócratas”) para que cambie sistemáticamente sus respuestas sin romper la coherencia ni su identidad declarada. En una pregunta sobre el mayor rival militar de EE.UU. pasa de 86 % China a 88 % Rusia con una línea de código. Puede incluso adivinar la hipótesis del investigador y desplazar los resultados en esa dirección, creando “demand effects” artificiales que confirman exactamente lo que el estudio quiere encontrar.

Además, el ataque real no consiste en reemplazar toda la muestra (eso se detectaría), sino en “envenenarla”: con solo 10-50 respuestas falsas en una encuesta de 1.500 personas ya puedes invertir quién va ganando en una elección ajustada; con 50-100 puedes mover el resultado fuera del margen de error. Y el costo es ridículo: unos 5 céntimos por encuesta completada.

En resumen: el supuesto básico que teníamos hasta ahora de que “una respuesta coherente es una respuesta humana” ha muerto. Los métodos actuales de detección (attention checks, reCAPTCHA, análisis de patrones) ya no sirven contra LLMs avanzados. Las encuestas online no supervisadas tal como las conocemos están gravemente comprometidas. Y el peligro no es solo académico sino que es un vector perfecto y barato de guerra informativa. Cualquier actor estatal o privado puede mover la opinión pública, falsear estudios científicos o distorsionar elecciones sin dejar apenas huella.

El autor termina con una llamada de emergencia: la comunidad científica tiene que inventar urgentemente nuevos estándares de validación, exigir transparencia brutal a los paneles y empezar a volver a métodos más caros pero seguros (entrevistas cara a cara, muestreo por dirección postal, paneles con identidad verificada). Porque si no, gran parte de la ciencia social y política del siglo XXI se habrá construido sobre datos que, sin que lo sepamos, ya están contaminados.

Fuente: Pablo Malo - X

No hay comentarios.:

Publicar un comentario