Clear Sky Science · pt

Dados abertos, aprendizes privados: um conjunto de dados desidentificado de atividade e desempenho estudantil para análise da aprendizagem

2026-02-27 · Voltar ao índice

Por que seus hábitos de estudo online importam

Cada vez que um estudante acessa um curso online, clica em slides de aula ou lê uma postagem em um fórum, ele deixa um rastro de pegadas digitais. Esses vestígios podem revelar quem está tendo dificuldades, quem está avançando com facilidade e quais estratégias de ensino realmente ajudam. Mas também são profundamente pessoais. Este artigo descreve um grande conjunto de dados cuidadosamente anonimizado sobre o comportamento de estudantes universitários em plataformas online, cujo objetivo é gerar insights para um ensino melhor—sem expor aprendizes individuais.

Dos cliques em sala de aula ao ouro para pesquisa

O conjunto de dados provém de estudantes do primeiro ano de negócios da KU Leuven que cursaram duas disciplinas introdutórias—Contabilidade e Economia Global—ao longo de três anos acadêmicos, incluindo o período da pandemia de COVID-19, quando grande parte do ensino migrou para o online. As disciplinas dependiam fortemente de um sistema de gestão de aprendizagem, onde os estudantes acessavam leituras, slides, questionários e fóruns de discussão. Cada interação, como abrir um arquivo ou visualizar um tópico de fórum, foi registrada com um carimbo de hora. Combinados com os resultados de exames, esses registros oferecem um retrato rico de como os estudantes realmente estudam ao longo de semanas e meses, em vez de apenas como se saem no dia da prova.

Protegendo estudantes ao compartilhar dados

Compartilhar esse tipo de informação levanta sérias preocupações de privacidade: registros brutos contêm identificadores únicos dos estudantes, notas exatas e horários precisos de atividade que poderiam permitir a reidentificação de indivíduos. Para prevenir isso, os autores aplicaram várias camadas de desidentificação antes de publicar o conjunto de dados. IDs dos estudantes foram substituídos por códigos aleatórios, e o vínculo com identidades reais foi destruído. As notas dos exames não foram compartilhadas como números exatos, mas agrupadas em faixas amplas como reprovado, limite, aprovado ou excelente. Detalhes sobre o programa de estudo específico de um estudante foram removidos, e itens de conteúdo na plataforma online foram atribuídos a tipos gerais como material do curso ou avaliações, em vez de manter seus nomes de arquivo originais.

Desfocar detalhes sem perder a história

Simplesmente remover nomes não é suficiente para garantir forte privacidade, então a equipe também ajustou como o tempo e a estrutura aparecem nos dados. Por exemplo, eles adicionaram um pequeno deslocamento aleatório de alguns segundos aos carimbos de hora de cada estudante. Isso torna muito mais difícil correlacionar registros com eventos do mundo real, preservando a ordem das ações, o que é crucial para estudar padrões de aprendizagem. Postagens em fóruns, identificadores de sessão e IDs de conteúdo foram todos renumerados aleatoriamente. Os pesquisadores então verificaram o quão anônimo o resultado realmente era usando uma medida padrão chamada k-anonimidade, que avalia quantos estudantes compartilham a mesma combinação de características. Na maioria dos casos, os dados transformados fizeram os indivíduos se misturarem em grupos maiores, aumentando a proteção à privacidade.

Os dados ainda dizem a verdade?

Claro, a anonimização só é útil se os dados permanecerem realistas o suficiente para sustentar pesquisas sólidas. Para testar isso, os autores reconstruíram dezenas de características de aprendizagem que estudos anteriores usaram para detectar padrões de estudo incomuns e prever sucesso em exames. Essas características incluem com que frequência os estudantes fazem login, com que regularidade distribuem suas sessões de estudo ao longo do semestre e quão ativamente utilizam os fóruns. A equipe comparou as distribuições de cada característica nos dados originais e nos desidentificados usando testes estatísticos. Em quase todos os casos, as duas versões eram indistinguíveis, o que significa que as etapas de privacidade não distorceram a narrativa geral sobre como os estudantes estudam online. Diferenças menores decorriam principalmente de melhorias na categorização dos tipos de conteúdo, e não das medidas de privacidade em si.

O que os pesquisadores podem fazer com isso

Como o conjunto de dados cobre duas disciplinas diferentes e três anos—including a grande interrupção da pandemia—pode ser usado para examinar quão robustas são as descobertas entre disciplinas, coortes e condições em mudança. As informações temporais de alta resolução suportam estudos de mineração de processos que traçam caminhos típicos através dos materiais do curso, enquanto registros detalhados de fórum podem embasar análises de redes sociais sobre interação entre pares. Os autores também fornecem código para reconstruir as características de aprendizagem, facilitando a comparação de novos modelos e métodos com trabalhos existentes e a exploração de inteligência artificial explicável na educação.

Abrindo portas sem revelar identidades

Em termos práticos, este artigo mostra que é possível aprender muito a partir de como estudantes clicam e rolam em cursos online sem expor quem eles são. Ao mascarar cuidadosamente detalhes pessoais enquanto preservam os padrões relevantes, os autores oferecem um recurso público que pode ajudar universidades a entender e melhorar a aprendizagem em larga escala. Para os estudantes, isso pode significar suporte mais inteligente e ensino mais responsivo—construído a partir de dados, mas sem comprometer sua privacidade.

Citação: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3

Palavras-chave: análise da aprendizagem, privacidade do estudante, dados educacionais, aprendizado online, anonimização de dados