Clear Sky Science · pt

Pressões cognitivas concorrentes na exploração humana na ausência de trade-off com a exploração

2026-02-12 · Voltar ao índice

Por que exploramos, mesmo quando nada está em jogo

Imagine rolar avaliações de restaurantes ou percorrer ruas novas de uma cidade: você está explorando, mas seus cliques ou passos não lhe garantem ganhos ou perdas imediatas. Este estudo investiga como é nossa curiosidade em contextos de baixo risco e se ela difere da forma como exploramos quando cada escolha nos dá ou tira algo. Ao eliminar recompensas imediatas em um experimento cuidadosamente controlado, os autores revelam disputas internas na tomada de decisão entre dois tipos de busca por informação.

Transformando recompensas em cores

A maioria dos estudos de laboratório sobre exploração usa jogos ao estilo de apostas em que cada escolha rende pontos ou dinheiro. Isso dificulta saber se as pessoas são genuinamente curiosas ou apenas estão perseguindo ganhos. Aqui, os pesquisadores criaram uma nova tarefa em que as “recompensas” eram apenas tonalidades de cor, não pontos. Em cada tentativa, os voluntários escolhiam entre duas formas abstratas, cada uma ligada a um saco que produzia resultados em sua maior parte azulados ou alaranjados. Importante: ver uma cor não dava ou tirava dinheiro imediatamente; em vez disso, apenas revelava o padrão estatístico por trás daquela opção, como aprender como uma máquina caça-níqueis tende a se comportar.

Três maneiras de fazer a mesma pergunta

A sacada foi manter a experiência de amostragem igual enquanto mudavam apenas as instruções e quando as recompensas apareciam. Na condição MATCH, as pessoas eram instruídas a coletar uma cor-alvo, e cada resultado com mais daquela cor rendia pontos imediatamente, imitando os dilemas clássicos de “explorar–explorar”. Na condição GUESS, não havia alvo durante a amostragem; somente ao final da sequência os participantes eram questionados qual opção era majoritariamente azul ou laranja, e eram pagos apenas pela resposta final. A condição FIND ficou no meio termo: a cor-alvo era conhecida desde o início, mas as recompensas dependiam apenas de uma escolha final. Em vários grupos independentes, a equipe mostrou que o desempenho em todas as condições ficou bem acima do acaso, confirmando que os participantes aprenderam o emparelhamento cor–opção.

Chunking versus perseguição da incerteza

Quando a exploração não competia com recompensa imediata, as pessoas se comportaram de forma surpreendentemente estruturada. Na condição GUESS, elas começavam cada nova sequência amostrando repetidamente a mesma opção várias vezes seguidas, como se quisessem obter uma primeira impressão sólida daquela opção. Só após esse “chunk” de escolhas repetidas elas mudavam e, mais adiante na sequência, começavam a favorecer a opção que naquele momento era mais incerta. Os autores chamam a primeira tendência de minimização local da incerteza: reduzir a dúvida sobre a opção que você está examinando no momento. A tendência posterior é minimização global da incerteza: deliberadamente amostrar a opção cujo comportamento você menos conhece. Em contraste, na condição MATCH, onde cada resultado tinha valor claro, as pessoas rapidamente convergiam para a opção que melhor correspondia à cor-alvo e exibiram muito menos esse padrão inicial de chunking.

Investigando com modelos computacionais

Para entender esses padrões mais profundamente, os pesquisadores construíram modelos matemáticos que preveem escolhas a partir do histórico de cores observadas. Um amostrador “ótimo”, despreocupado com esforço mental, sempre escolheria a opção mais incerta para ganhar informação da forma mais eficiente possível. Os participantes humanos não se comportaram como esse agente ideal. Os ajustes dos modelos mostraram que, além de uma tendência modesta a perseguir a incerteza quando as recompensas eram adiadas, as pessoas tinham um forte viés a repetir a escolha anterior e, em muitos casos, a continuar repetindo até atingir um limiar pessoal de confiança sobre aquela opção. Curiosamente, indivíduos que exibiam chunking inicial mais forte frequentemente também mostravam exploração mais dirigida posteriormente e tiveram desempenho melhor no geral, sugerindo que essa estratégia aparentemente subótima pode ser um compromisso útil dadas as limitações cognitivas humanas.

Por que isso importa para a curiosidade do dia a dia

Esses achados sugerem que, quando exploramos sem nos preocupar com ganhos imediatos, duas forças moldam nossa curiosidade. Uma nos empurra a ficar com aquilo que estamos examinando no momento para garantir que realmente o compreendamos; a outra nos incentiva a buscar aquilo que conhecemos menos no conjunto. Na vida real, navegar por avaliações, aprender uma cidade nova ou testar ferramentas provavelmente reflete o mesmo equilíbrio entre busca local e global por informação. O estudo mostra que, se estudarmos exploração apenas em tarefas fortemente orientadas por recompensas, corremos o risco de compreender mal como as pessoas naturalmente buscam conhecimento por si só.

Citação: Alméras, C., Chambon, V. & Wyart, V. Competing cognitive pressures on human exploration in the absence of trade-off with exploitation. Nat Commun 17, 883 (2026). https://doi.org/10.1038/s41467-026-68639-2

Palavras-chave: exploração humana, tomada de decisão, incerteza, busca por informação, modelagem cognitiva