domingo, 23 de noviembre de 2025

Seshat y la IA. Potenciando la recopilación de datos históricos


Desde el lanzamiento de Seshat en 2011, empezamos a pensar en cómo acelerar la recopilación de datos automatizándola (o incluso semiautomatizándola). Pero la tecnología en aquel entonces simplemente no era lo suficientemente sofisticada. Probamos diversos enfoques, pero todos requerían más esfuerzo que la simple recopilación manual de datos.

Tenga en cuenta que la recopilación de datos para Seshat es una operación bastante sofisticada. Durante los primeros años, probamos diversos enfoques. Descubrimos que pedir a los académicos que codificaran datos de sociedades en las que son expertos no funcionaba: implicaba mucho trabajo y eran personas ocupadas. Utilizar el trabajo de estudiantes era aún peor: requería más tiempo y esfuerzo capacitarlos (y luego perderlos poco después) que recopilar los datos uno mismo. Gradualmente, desarrollamos un enfoque que se basa en una combinación de investigadores a largo plazo (algunos han trabajado para Seshat durante más de 10 años) con maestrías o incluso doctorados, científicos sociales y expertos en la materia. Si le interesan los detalles, lea sobre ellos aquí, Lanzamiento de datos de Seshat Equinox2020, o en la sección de Métodos de este artículo: Explicando el auge de las religiones moralizadoras: una prueba de hipótesis en competencia utilizando el Banco de Datos de Seshat .

La cuestión principal es que codificar datos históricos para las variables de Seshat es una tarea cognitiva muy exigente, y las versiones anteriores de inteligencia artificial (IA) simplemente no estaban a la altura. Periódicamente probábamos los modelos de lenguaje extenso (LLM) más recientes (en aquel momento), y los resultados eran decepcionantes. Los LLM alucinaban en todo el panorama. Incluso si llegaban a una respuesta razonable, inventaban citas (todos los datos de Seshat deben estar respaldados por una fuente académica o la comunicación personal de un experto académico). Por lo tanto, seguimos recopilando datos de forma humana.

Y entonces, hace aproximadamente un año, todo cambió. Recuerdo que, después de leer sobre DeepSeek, lo puse a prueba para evaluar mi conocimiento histórico y me quedé asombrado. La nueva generación de LLM era mucho mejor que la del año anterior. Fue un salto cualitativo. Estos modelos de IA incluyen no solo DeepSeek, sino también ChatGPT, Gemini y otros.

En enero de este año decidimos profundizar en esta nueva tecnología. Necesitábamos ampliar Seshat añadiendo dos tipos de datos: inestabilidad política y resultados de estudios y excavaciones arqueológicas. En esta publicación, hablaré sobre los datos de inestabilidad, que se encuentran en una etapa más avanzada, y dejaré los datos arqueológicos para una discusión posterior.

El enfoque que desarrollamos para cuantificar la inestabilidad se basa en la enumeración de eventos de violencia política, desde microeventos, como asesinatos políticos o disturbios urbanos en los que mueren una o pocas personas, hasta macroeventos, como guerras civiles a gran escala y revoluciones transformadoras que matan a miles, o incluso millones, de personas. Este enfoque, que yo sepa, fue desarrollado por el sociólogo ruso-estadounidense Pitirim Sorokin .

Durante la preparación de su obra multivolumen Dinámica social y cultural (1937-1941), Sorokin escribió a un grupo de amigos historiadores y les pidió que recopilaran una lista de eventos de inestabilidad en una sociedad histórica en la que fueran expertos. También les pidió que los cuantificaran según varias dimensiones: área social, duración, masas involucradas e intensidad (violencia y efectos).

Con estos datos, Sorokin elaboró ​​una serie de curvas que documentan las fluctuaciones de inestabilidad en diversas sociedades históricas. Me enteré de este esfuerzo de Sorokin y sus asociados poco después de cambiar de ecología a cliodinámica a finales de los años 90. Luego, tras mi predicción de 2010 sobre la creciente inestabilidad en América y Europa Occidental, decidí que necesitaba datos similares para Estados Unidos. En ese momento no podía usar IA (ya que no estaba a la altura de la tarea) ni investigadores humanos (porque no tenía fondos para investigación para contratarlos), así que lo hice yo mismo. Pasé todo el verano buscando en los archivos de periódicos estadounidenses e ingresando los datos en una base de datos a mano. Este fue uno de los veranos más miserables de mi vida, porque era increíblemente deprimente leer sobre los horribles detalles de diversos eventos violentos: linchamientos, violentos enfrentamientos raciales y étnicos, represión de rebeliones, etc.

Estos datos se publicaron en mi artículo de 2012 en Journal of Peace Research, "Dinámica de la inestabilidad política en Estados Unidos, 1780-2010" . Recientemente, mis asistentes de investigación actualizaron el conjunto de datos a 2024 y lo analizaré en una próxima entrega del hilo "Estado estructural y demográfico de Estados Unidos" .

Bien, hasta 2024, recopilamos datos de Seshat de forma humana con una automatización mínima (principalmente, la capacidad de buscar en PDF). Y, como comenté al principio de esta publicación, todo cambió en 2025. Pero no existía una solución mágica que permitiera a los LLM asumir el control total de la recopilación de datos. Como todos saben, no se puede confiar en la IA, ni siquiera en los modelos avanzados actuales. De hecho, pasamos por un proceso bastante intenso para aprender a usar los LLM de forma eficaz. En futuras entregas de esta serie, escritas por miembros de nuestro proyecto, les detallaremos cómo dividimos las tareas entre nosotros; aquí tienen un resumen.

Nuestro enfoque actual se asemeja a un sándwich, con una capa de carne entre dos rebanadas de pan. La "carne" son los datos generados por los LLM, mientras que el "pan" se refiere a las contribuciones humanas.

La primera fase de la recopilación de datos consiste en diseñar una consulta eficaz para una generación óptima de datos. Realizamos tres iteraciones principales de este proceso, que generaron los Lotes de Datos 1, 2 y 3. Actualmente trabajamos con el Lote 3, pero es evidente que podemos mejorarlo aún más. Por lo tanto, preveo que en el futuro tendremos los Lotes 4 y 5, también porque los LLM están en constante mejora.

La segunda fase consiste en ejecutar LLM para generar datos sobre eventos de inestabilidad en diversas entidades políticas. El lote 3 contiene 9711 eventos para 571 entidades políticas.

La tercera fase consiste en la revisión por parte de investigadores humanos de los datos generados por LLM. Hasta el momento, hemos revisado 1100 eventos, es decir, poco más del 10 %.

La cuarta fase consiste en la verificación por parte de expertos en la materia (bueno, esto es un sándwich de dos niveles). Hasta el momento, cuatro historiadores especializados en Bizancio, varios imperios islámicos y el Imperio alemán (también conocido como Sacro Imperio Romano Germánico) han revisado los datos generados por el LLM. Esta cuarta fase es la que llevará más tiempo y, muy probablemente, nunca se completará. Sin embargo, el objetivo no es que los historiadores verifiquen los datos de cada evento. Intentar crear una base de datos en la que cada dato sea "correcto" es inalcanzable; todas las bases de datos grandes contienen diversos tipos de errores. En cambio, necesitamos estas verificaciones por parte de expertos para estimar la precisión de los datos resultantes (algo útil en la etapa de análisis) y cómo mejorarla en futuras iteraciones.

Habrá más detalles en futuras publicaciones de mis colegas, pero aquí tienen una evaluación preliminar. Los LLM aún presentan alucinaciones, pero la frecuencia de "datos" falsos ha disminuido drásticamente, en comparación con hace un año. Curiosamente, las alucinaciones más frecuentes se relacionan con los números de página (exigimos a los LLM que proporcionen una fuente académica —un artículo o un libro— y el número de página de donde se extrajeron los datos). A veces, los LLM también nos dan referencias falsas o confunden las cosas (por ejemplo, nos dan un título de una publicación real, pero el autor de otra). En general, actualmente, alrededor del 17 % de las entradas generadas por LLM presentan problemas de referencias.

Otros problemas, menos frecuentes, involucran eventos que nunca ocurrieron, eventos contabilizados dos veces (duplicados) y estimaciones erróneas de las características cuantitativas que solicitamos a LLM que codifique (extensión geográfica e intensidad, que reflejan cuántas personas murieron). En general, actualmente solo más de la mitad de los eventos generados por LLM son completamente correctos o solo requieren modificaciones menores. Como era de esperar, la probabilidad de errores aumenta a medida que nos adentramos en el pasado y nos alejamos de Europa.

A pesar de esto, la velocidad a la que ahora podemos recopilar datos es mucho mayor que sin LLM. Simplemente, es mucho más rápido comprobar y corregir errores en el resultado generado por LLM que recopilar datos desde cero. Por ejemplo, un número de página incorrecto se corrige rápidamente cuando el verificador busca el nombre de un evento en el PDF de la fuente.

Hay mucho más que decir sobre este tema, pero me detendré aquí y dejaré que mis colegas brinden más detalles en las próximas entregas.

Fuente: Cliodinamica de Peter Turchin (traduccion automatica del ingles)

No hay comentarios.:

Publicar un comentario