Clear Sky Science · es

Análisis temático con IA generativa de código abierto y aprendizaje automático: un nuevo método para el desarrollo inductivo de libros de códigos cualitativos

· Volver al índice

Por qué esto importa para preguntas cotidianas

Cuando las personas rellenan encuestas o responden preguntas en entrevistas, dejan relatos ricos sobre el trabajo, la escuela, la salud o la vida comunitaria. Leer unas pocas docenas de esas respuestas es fácil; entender miles no lo es. Este artículo describe una nueva forma para que los investigadores utilicen inteligencia artificial de código abierto para ayudar a cribar enormes cantidades de comentarios escritos y extraer las ideas principales, manteniendo al mismo tiempo a los humanos al cargo de la interpretación. El objetivo es hacer posible una investigación cualitativa cuidadosa y matizada a escalas que habitualmente se reservan para estadísticas de grandes volúmenes de datos.

Una manera más inteligente de leer miles de comentarios

Los autores se centran en un enfoque popular en ciencias sociales llamado análisis temático, donde los investigadores leen textos y buscan patrones recurrentes o “temas” que respondan a sus preguntas de investigación. Tradicionalmente, esto implica codificar lentamente cada comentario a mano y construir un libro de códigos: una lista estructurada de temas y subtemas. Ese proceso puede funcionar bien para unas pocas docenas de entrevistas, pero se vuelve abrumador cuando hay decenas de miles de respuestas abiertas. El artículo plantea la pregunta: ¿pueden los modelos de texto generativos de libre acceso y otras herramientas de código abierto ayudar en las primeras partes repetitivas de este trabajo sin sustituir el juicio humano?

Figure 1
Figura 1.

Presentamos el flujo de trabajo GATOS

Para responder a esa pregunta, los autores presentan el flujo de trabajo Generative AI-enabled Theme Organization and Structuring, o GATOS. Este flujo encadena varios pasos. Primero, un modelo de lenguaje de código abierto lee respuestas individuales y escribe puntos de resumen cortos y centrados sobre lo que cada persona está diciendo. A continuación, otra herramienta convierte estos resúmenes en representaciones numéricas para que un ordenador pueda comparar y agrupar ideas similares. Esos resúmenes se agrupan en clústeres que probablemente reflejen temas compartidos, como preocupaciones sobre el equilibrio trabajo-vida o frustraciones con una comunicación poco clara.

Dejar que la IA sugiera, pero sin inundar con nuevas ideas

El paso más novedoso llega cuando el sistema comienza a construir un borrador del libro de códigos. Para cada clúster de resúmenes relacionados, otro modelo generativo examina las ideas en ese clúster y los códigos ya presentes en el libro. Luego razona sobre si se necesita realmente un código nuevo, o si los códigos existentes son suficientes. Si surge un ángulo nuevo—por ejemplo, “herramientas de videoconferencia fiables” como una preocupación específica—propone una etiqueta corta y una definición, que se añade. Si no, opta por reutilizar lo que ya existe. Un paso final agrupa códigos relacionados en temas más amplios, creando un mapa estructurado desde los comentarios en bruto hasta las ideas organizadas. En todo momento, el énfasis está en evitar una avalancha de códigos casi duplicados sin dejar de capturar diferencias sutiles en las experiencias de las personas.

Figure 2
Figura 2.

Probar el método con datos sintéticos realistas

Dado que los estudios del mundo real rara vez vienen con una “clave de respuestas” conocida, el equipo probó GATOS usando datos sintéticos (generados por ordenador) donde los temas ocultos se conocían de antemano. Crearon tres conjuntos de datos grandes y verosímiles: retroalimentación entre pares sobre trabajo en equipo, opiniones sobre la cultura ética en el lugar de trabajo y puntos de vista sobre el regreso a la oficina tras la pandemia de COVID-19. Para cada conjunto de datos definieron primero ocho temas y varios subtemas, y luego utilizaron un modelo de lenguaje para redactar cientos de respuestas realistas provenientes de diferentes personajes, como miembros de sindicatos, gerentes o estudiantes. Tras ejecutar GATOS en estos conjuntos, revisores humanos compararon los temas generados por la IA con los subtemas originales y ocultos para ver cuán bien coincidían.

¿Qué tan bien funcionó y cuáles son los compromisos?

En los tres casos de prueba, el flujo de trabajo recuperó la mayoría de los subtemas originales de forma bastante fiel: la gran mayoría tuvo al menos una coincidencia fuerte y solo un pequeño número careció de un buen equivalente. Es importante señalar que, a medida que el sistema examinaba más datos, propuso menos códigos nuevos, lo que sugiere que aprendía a reutilizar ideas existentes en lugar de inventar variaciones sin fin. Los autores sostienen que este tipo de configuración de código abierto y ejecutable localmente puede aliviar preocupaciones de privacidad y facilitar que distintos equipos de investigación se repliquen entre sí. Al mismo tiempo, subrayan que los datos sintéticos son más simples que muchas situaciones reales, que el flujo de trabajo aún puede generar códigos solapados y que los investigadores humanos siguen siendo necesarios para refinar, interpretar y juzgar el libro final de códigos.

Qué significa esto para lectores no expertos

Para quienes están fuera del mundo académico, la conclusión es que la IA de código abierto puede ayudar a los científicos sociales y otros investigadores a escuchar a muchas más personas sin reducir sus palabras a números toscos. En lugar de reemplazar a los analistas humanos, el flujo de trabajo GATOS actúa como un asistente muy rápido y muy organizado que sugiere patrones y etiquetas preliminares, dejando a los humanos la decisión sobre lo que esos patrones realmente significan. Si estudios posteriores confirman estos resultados con datos del mundo real, herramientas como GATOS podrían facilitar que las políticas laborales, los programas educativos y las decisiones públicas se basen en la riqueza completa de lo que la gente dice, no solo en casillas de encuestas de opción múltiple.

Cita: Katz, A., Fleming, G.C. & Main, J.B. Thematic analysis with open-source generative AI and machine learning: a new method for inductive qualitative codebook development. Humanit Soc Sci Commun 13, 209 (2026). https://doi.org/10.1057/s41599-026-06508-5

Palabras clave: análisis de datos cualitativos, análisis temático, IA generativa, modelos de lenguaje de código abierto, métodos de investigación en ciencias sociales