Clear Sky Science · pt

Análise temática com IA generativa e aprendizado de máquina de código aberto: um novo método para desenvolvimento indutivo de um manual de codificação qualitativa

2026-01-21 · Voltar ao índice

Por que isso importa para questões do dia a dia

Sempre que pessoas respondem pesquisas ou entrevistas, elas deixam histórias ricas sobre trabalho, escola, saúde ou vida comunitária. Ler algumas dezenas dessas respostas é fácil; entender milhares já não é. Este artigo descreve uma nova forma de pesquisadores usarem inteligência artificial de código aberto para ajudar a vasculhar grandes volumes de comentários escritos e extrair as ideias principais, mantendo humanos no controle da interpretação. O objetivo é tornar possível uma pesquisa qualitativa cuidadosa e nuançada em escalas normalmente reservadas a estatísticas de big data.

Uma maneira mais inteligente de ler milhares de comentários

Os autores se concentram em uma abordagem popular nas ciências sociais chamada análise temática, em que pesquisadores leem textos e buscam padrões recorrentes ou “temas” que respondam às suas perguntas de pesquisa. Tradicionalmente, isso significa codificar cada comentário manualmente e construir um manual de códigos—uma lista estruturada de temas e subtemas. Esse processo funciona bem para algumas dezenas de entrevistas, mas se torna esmagador quando há dezenas de milhares de respostas abertas. O artigo pergunta: modelos de texto generativos de livre acesso e outras ferramentas de código aberto podem ajudar nas partes iniciais e repetitivas desse trabalho sem substituir o julgamento humano?

Apresentando o fluxo de trabalho GATOS

Para responder a essa questão, os autores apresentam o fluxo de trabalho Generative AI-enabled Theme Organization and Structuring, ou GATOS. Esse fluxo encadeia várias etapas. Primeiro, um modelo de linguagem de código aberto lê respostas individuais e escreve pontos de resumo curtos e focados sobre o que cada pessoa está dizendo. Em seguida, outra ferramenta transforma esses resumos em representações numéricas para que um computador possa comparar e agrupar ideias semelhantes. Esses resumos são agrupados em clusters que provavelmente refletem temas compartilhados, como preocupações com equilíbrio entre trabalho e vida pessoal ou frustrações com comunicação pouco clara.

Deixar a IA sugerir, mas não inundar, novas ideias

A etapa mais inovadora ocorre quando o sistema começa a construir um rascunho do manual de códigos. Para cada cluster de resumos relacionados, outro modelo generativo analisa as ideias naquele cluster e os códigos já existentes no manual. Em seguida, ele raciocina se é necessário um código genuinamente novo ou se os códigos existentes são suficientes. Se surgir um novo ângulo—por exemplo, “ferramentas de videoconferência confiáveis” como uma preocupação específica—ele propõe um rótulo curto e uma definição, que são adicionados. Caso contrário, opta por reutilizar o que já existe. Uma etapa final agrupa códigos relacionados em temas mais amplos, criando um mapa estruturado desde os comentários brutos até os insights organizados. Ao longo do processo, a ênfase é evitar uma enxurrada de códigos quase duplicados, ao mesmo tempo em que se capturam diferenças sutis nas experiências das pessoas.

Testando o método com dados sintéticos realistas

Como estudos do mundo real raramente vêm com um “gabarito” conhecido, a equipe testou o GATOS usando dados sintéticos (gerados por computador) em que os temas ocultos eram conhecidos de antemão. Eles criaram três grandes conjuntos de dados verossímeis: feedback entre pares sobre trabalho em equipe, percepções sobre cultura ética no local de trabalho e opiniões sobre o retorno ao escritório após a pandemia de COVID-19. Para cada conjunto de dados, definiram primeiro oito temas e vários subtemas, depois usaram um modelo de linguagem para escrever centenas de respostas realistas de diferentes personas, como membros de sindicato, gerentes ou estudantes. Após rodar o GATOS nesses conjuntos, revisores humanos compararam os temas gerados pela IA com os subtemas originais ocultos para ver quão bem eles coincidiam.

Quão bem funcionou e quais são os trade-offs?

Nos três casos de teste, o fluxo de trabalho recuperou a maioria dos subtemas originais com boa aproximação: a grande maioria teve pelo menos uma correspondência forte, e apenas um pequeno número não teve um bom equivalente. Importante: à medida que o sistema examinava mais dados, ele propunha menos códigos novos, sugerindo que aprendia a reutilizar ideias existentes em vez de inventar variações sem fim. Os autores argumentam que esse tipo de configuração de código aberto, executável localmente, pode reduzir preocupações com privacidade e facilitar que diferentes equipes de pesquisa repliquem o trabalho umas das outras. Ao mesmo tempo, eles ressaltam que dados sintéticos são mais simples que muitas situações do mundo real, que o fluxo pode ainda gerar códigos sobrepostos e que pesquisadores humanos continuam necessários para refinar, interpretar e julgar o manual final de códigos.

O que isso significa para não especialistas

Para leitores fora da academia, a conclusão é que IA de código aberto pode ajudar cientistas sociais e outros pesquisadores a ouvir muito mais pessoas sem reduzir suas palavras a números brutos. Em vez de substituir analistas humanos, o fluxo GATOS funciona como um assistente muito rápido e organizado que sugere padrões e rótulos provisórios, deixando aos humanos decidir o que esses padrões realmente significam. Se estudos adicionais confirmarem esses resultados com dados do mundo real, ferramentas como o GATOS poderiam facilitar que políticas de trabalho, programas educacionais e decisões públicas se baseiem na riqueza completa do que as pessoas realmente dizem, e não apenas em caixas de múltipla escolha de pesquisas.

Citação: Katz, A., Fleming, G.C. & Main, J.B. Thematic analysis with open-source generative AI and machine learning: a new method for inductive qualitative codebook development. Humanit Soc Sci Commun 13, 209 (2026). https://doi.org/10.1057/s41599-026-06508-5

Palavras-chave: análise de dados qualitativos, análise temática, IA generativa, modelos de linguagem de código aberto, métodos de pesquisa em ciências sociais