06 Fevereiro 2025

O efeito da marca: como diferentes máquinas de ressonância magnética atrapalham a IA

O cancro da próstata pode variar muito em termos de agressividade, e saber isso antecipadamente ajuda os médicos a decidir a melhor forma de tratamento. Apesar das imagens por ressonância magnética (RM) serem frequentemente utilizadas para detetar o cancro da próstata, determinar o grau de agressividade do cancro continua a ser complicado.

O efeito da marca: como diferentes máquinas de ressonância magnética atrapalham a IA

Um novo estudo, realizado por cientistas da Fundação Champalimaud (FC), investigou se a inteligência artificial (IA) conseguiria analisar as imagens de ressonância magnética para determinar com exatidão quais os cancros menos agressivos e quais os que representam um risco maior. Embora a IA se tenha revelado promissora, a sua fiabilidade variou substancialmente consoante a marca do aparelho de RM.

Um grande esforço multicêntrico

Os investigadores reuniram mais de 5.000 imagens de ressonância magnética de vários hospitais, utilizando três diferentes marcas (Siemens, Philips e GE) de máquinas de ressonância magnética e, em alguns casos, um dispositivo especial chamado bobina endorrectal (ERC na sigla em inglês) para obter imagens mais nítidas. Cada ressonância magnética foi acompanhada de resultados de uma biópsia que indica a real agressividade do cancro. Isto proporcionou aos investigadores uma referência fiável – essencialmente as “respostas corretas” – para avaliar o desempenho dos seus modelos de IA.

A FC contribuiu com dados de doentes do Centro Clínico Champalimaud, desempenhando também um papel fundamental no desenvolvimento das ferramentas de IA utilizadas no estudo. Como explica o autor sénior do estudo, Nickolas Papanikolaou, que dirige o Laboratório de Imagiologia Clínica Computacional da FC: “Como membro fundador do Consórcio ProCancer-I, tivemos acesso privilegiado a muitos dados que tornaram este estudo possível. A FC não é apenas um fornecedor de dados para o consórcio, mas mas está envolvida ativamente no desenvolvimento de IA, fazendo avançar a investigação sobre diagnósticos baseados em IA para o cancro da próstata”.

Treinar a IA para classificar o cancro da próstata

O principal objetivo dos investigadores era verificar se os modelos de IA conseguiam, por si só, distinguir tumores de baixo grau de tumores de grau superior tendo em consideração a imagem de toda a próstata recolhida em cada ressonância magnética, ou seja, sem que os radiologistas tivessem primeiro de delinear o tumor. A equipa testou diferentes modelos de deep learning, dos mais antigos e mais simples (como o VGG) aos mais recentes e mais complexos “transformers”. A equipa verificou também se a adição de dados sobre o doente – como a idade e os resultados das análises sanguíneas – aumentaria a fiabilidade dos modelos.

“A seguir, comparámos a eficácia dos modelos treinados com imagens obtidas por cada marca de scanner de RM com os dados compilados de todas as marcas”, diz Papanikolaou. “Também avaliámos se a utilização da bobina endorrectal afetava ou não o desempenho dos modelos”.

Porque é que as diferenças de scanner são importantes

De um modo geral, os modelos de IA conseguiram distinguir bem os cancros da próstata de baixo grau dos de alto grau. O melhor modelo alcançou 73% de respostas corretas quando foi testado com dados da mesma marca de scanner com que tinha sido treinado. No entanto, a marca e a configuração do aparelho de ressonância magnética tiveram um impacto claro no desempenho dos modelos.

José Almeida, que trabalha com Papanikolaou e levou a cabo o estudo, observa: “A principal conclusão do nosso estudo é que os modelos tiveram o seu melhor desempenho quando testados em dados provenientes da mesma marca/tipo de scanner utilizado para o treino. No entanto, o desempenho frequentemente piorou quando os modelos foram testados numa marca diferente ou com imagens obtidas com uma bobina endorrectal – ou seja, quando não tinham sido treinados com exemplos semelhantes”.

Almeida continua: “Normalmente, se um modelo tiver um bom desempenho, à medida que aumenta o volume de dados com que é treinado, o seu desempenho melhora. E de facto, verificámos que era este o caso quando treinávamos e testávamos modelos com a mesma marca de scanner. Mas isso não aconteceu quando um modelo foi treinado com uma marca e testado com outra”.

Surpreendentemente, a adição de detalhes sobre o doente não melhorou consistentemente a capacidade dos modelos para detetar cancros agressivos. Quando um modelo era treinado com dados vindos de todas as marcas de máquinas de ressonância magnética, a IA tinha um desempenho mais fiável com cada uma das marcas, mas os exames com bobina endorrectal continuavam a ser um desafio. Embora o aumento da quantidade de dados de treino tenha melhorado o desempenho geral, não conseguiu eliminar completamente a diminuição do desempenho ao alternar entre tipos de scanner.

Maior nem sempre é melhor

A utilização da IA para identificar tumores de alto risco pode ajudar alguns homens com cancros de baixo risco a evitar procedimentos invasivos para determinar a agressividade do seu cancro. No entanto, como mostra este estudo, a marca do aparelho de RM e a utilização de bobinas especiais podem afectar fortemente o desempenho. Um grande conjunto de dados multicêntricos – como o que foi aqui utilizado – é crucial para captar as realidades da prática clínica e garantir que as ferramentas de IA fornecem resultados fiáveis em todo o lado.

“Os modelos não são perfeitos e podem não detetar alguns cancros agressivos ou assinalar alguns cancros não agressivos”, salienta Papanikolaou. “A inclusão de informações mais detalhadas ou avançadas – como a localização exata do tumor ou dados adicionais do doente – pode aumentar ainda mais a fiabilidade”. O investigador salienta ainda que, uma vez que os dados provêm maioritariamente de centros europeus, não é claro qual será o desempenho dos modelos em populações mais diversificadas.

Almeida sublinha a necessidade de uma colaboração mais alargada: “Um estudo em grande escala em todo o mundo, em que os médicos utilizem estas ferramentas de IA em tempo real, será essencial para ver se funcionam bem na prática. Temos de aumentar a diversidade dos dados de teste e promover mais estudos multicêntricos. Os grandes volumes de dados não resolvem os problemas da baixa diversidade de dados!”.

 

Texto de Hedi Young, Science Writer & Content Developer da Equipa de Comunicação, Eventos & Outreach da Fundação Champalimaud.
Tradução de Ana Gerschenfeld, Health & Science Writer da Fundação Champalimaud.
Loading
Por favor aguarde...