13 Dezembro 2023
Novo estudo revela como o cérebro aprende que acões levam a recompensa
As recompensas não reforçam apenas uma ação específica – elas rapidamente alteram todos os nossos padrões de comportamentos.
13 Dezembro 2023
As recompensas não reforçam apenas uma ação específica – elas rapidamente alteram todos os nossos padrões de comportamentos.
Imaginem que estão a ensinar um cão bebé a brincar ao “apanha”. Atiram uma bola e o cão corre atrás dela, apanha-a e volta a correr. Nesse momento recompensam o pequeno cão ofegante com um biscoito ou uma guloseima.
Mas é agora que surge o grande desafio para o vosso cão: descobrir naquela sequência de eventos, qual a parte que justificou a guloseima.
Os cientistas chamam a isto “problema de atribuição de crédito” no cérebro. É uma questão fundamental inerente à compreensão de quais são as ações responsáveis pelos resultados positivos que vivenciamos. Sabe-se que a dopamina, um mensageiro químico chave no cérebro, desempenha um papel crucial neste processo. Mas como é que o cérebro liga determinadas ações específicas à libertação de dopamina ainda não era claro.
Um estudo publicado hoje na revista Nature, conduzido por cientistas do Allen Institute, do Zuckerman Mind Brain Behavior Institute da Universidade de Columbia, do Centro Champalimaud e do Seattle Children's Research Institute, lança uma nova luz sobre este mistério. Este revela agora que a dopamina não apenas sinaliza uma recompensa, mas também orienta os animais a identificarem os comportamentos específicos que, por tentativa e erro, conduzem a essas recompensas.
Curiosamente, a investigação mostra também que o sistema de recompensa do cérebro pode alterar dinâmica e rapidamente toda uma panóplia de movimentos e comportamentos de um animal. Isto destaca uma estratégia de aprendizagem sofisticada onde os comportamentos não são apenas reforçados, mas ativamente moldados e ajustados através da experiência, explica Rui Costa, DVM, Ph.D. presidente e CEO do Allen Institute e autor sénior do estudo. “Quando reforçamos um comportamento, muitas vezes pensamos que estamos apenas a reforçar essa ação”, e acrescenta, “Mas não: estamos a mudar toda a estrutura comportamental. E o que foi realmente surpreendente, foi a rapidez com que isso aconteceu."
Para perceber o que está na base desta observação, a equipa colaborou com engenheiros e neurocientistas do Centro Champalimaud no desenvolvimento de um novo sistema de “circuito fechado” que pudesse associar ações específicas de ratinhos à libertação de dopamina, em tempo real. Os investigadores equiparam então os animais com sensores wireless para registarem os seus movimentos dentro de um espaço simples e controlado. Os dados recolhidos foram posteriormente submetidos a um algoritmo de aprendizagem automática, que categorizou essas ações em grupos distintos. Os investigadores usaram depois a optogenética, um método para controlar neurónios através da luz, para estimular os neurónios dopaminérgicos, sempre que os ratinhos realizavam as “ações-alvo” predefinidas.
Os cientistas descobriram que os animais mudaram rapidamente o seu comportamento em resposta à libertação de dopamina. Inicialmente, não só aumentaram a frequência da ação-alvo, como também de ações semelhantes e daquelas que ocorreram alguns segundos antes da libertação de dopamina. Simultaneamente, as ações que deferiam das “ações-alvo” diminuíram rapidamente. Com o tempo, esse refinamento tornou-se mais preciso, com os ratinhos a focar-se cada vez mais na ação exata que levou à libertação de dopamina.
O estudo também analisou como os animais aprendem uma série de ações, revelando um processo-chave semelhante a retroceder no tempo para entender o que leva a uma recompensa. Quando as ações que desencadeiam a dopamina ocorreram com uma maior distância temporal, os ratinhos aprenderam mais lentamente. Isto mostra que esperas mais longas entre as ações tornam mais difícil a associação de uma sequência de ações à recompensa. Em essência, as ações imediatamente anteriores à atribuição da recompensa são rapidamente compreendidas e melhoradas, enquanto as ações anteriores são melhoradas de forma mais gradual. Este processo de “retrocesso” fortalece o comportamento e ajuda os ratinhos a identificar progressivamente quais as ações e sequências de comportamento precisas que originam a recompensa.
Estas descobertas podem ter um forte impacto em diversos campos, como a educação e a inteligência artificial (IA), afirmou o autor principal, Jonathan Tang, professor assistente da University of Washington Medicine – Pediatrics, Seattle Children’s Research Institute. Por exemplo, permitir a exploração, os erros e a melhoria gradual na sala de aula pode estar mais de acordo com os processos de aprendizagem inatos do nosso cérebro.
Na IA, estas conclusões poderão levar ao desenvolvimento de sistemas de aprendizagem mais sofisticados e eficientes. Ao conseguirmos replicar melhor os processos de aprendizagem biológica, poderemos criar uma IA que melhor se adapta a novos dados e situações.
Este estudo oferece uma visão mais profunda sobre como, por tentativa e erro, os nossos cérebros aprendem e se adaptam – seja cientista ou um cãozinho bebé.
“Assumimos muitas coisas como garantidas, nomeadamente sobre como as coisas funcionam, incluindo a atribuição de crédito à ação que resultou na recompensa”, acrescentou Tang, que iniciou este estudo com Rui Costa quando trabalhavam na Universidade de Columbia. “Mas é quando começamos a explorar mais a fundo que percebemos a complexidade. É por isso que as pessoas fazem ciência: para descobrir a verdade sobre os assuntos.”