Uma inteligência artificial demonstrou sinais de introspecção, mas não há motivo para alarme (ainda).

Você já perguntou a uma inteligência artificial o que se passa em sua mente ? Ou por que ela reagiu de determinada maneira? Geralmente, ela oferece uma resposta tranquilizadora e sensata . Mas será que a IA realmente está olhando para dentro de si mesma, ou está apenas representando um papel ?
Essa curiosidade levou a um experimento da Anthropic , a empresa de inteligência artificial na qual Amazon e Google , entre outras, investiram bilhões. O objetivo do estudo é entender se um modelo linguístico pode ter uma forma de introspecção , ou seja, a capacidade de "sentir" seus próprios "pensamentos" internos [é claro que, quando falamos de uma IA que "pensa" ou "sente", não nos referimos a uma experiência comparável à de um humano: é uma forma figurativa de descrever processos computacionais complexos, nos quais o sistema processa e monitora seus próprios estados internos sem qualquer forma de consciência ou experiência subjetiva].
Uma descoberta fascinante, que não implica consciência.A perspectiva antropológica comete um pecado original: não esclarece imediatamente a distinção entre introspecção funcional – a capacidade de um sistema monitorar e descrever seus próprios estados internos – e introspecção fenomenológica , ou seja, a consciência subjetiva da experiência de um pensamento.
O estudo, na verdade, concentra-se inteiramente no primeiro plano: descreve uma introspecção funcional, útil para entender como um modelo pode detectar e controlar suas próprias ativações internas, mas desprovida de qualquer experiência consciente. Sem essa premissa, porém, a mente imediatamente se volta para o mal-entendido: "Eles estão dizendo que a IA tem consciência?" Não, não estão. E assim, um trabalho cientificamente rigoroso acaba parecendo um pequeno mistério místico.
O radar da inteligência artificialO método, no entanto, é brilhante. Os pesquisadores não questionam o modelo: eles o injetam com um "pensamento". Fazem isso insinuando-se no fluxo de ativações internas, aquele território obscuro e invisível onde cada palavra gerada por IA surge como uma constelação de impulsos matemáticos. É um cenário que ninguém compreende completamente, nem mesmo as empresas que desenvolvem essa tecnologia .
Nessa névoa, os cientistas inserem um conceito preciso – “oceano”, “pão”, “justiça” – e então observam.
Às vezes, o modelo percebe a intrusão e diz: " Parece que estou pensando no oceano ". Outras vezes, não. Ou começa a falar sobre o mar sem saber porquê. É como se uma voz estranha lhe sussurrasse uma ideia, e ele a repete, acreditando ser sua.
Quando funciona, a descoberta é fascinante. Alguns modelos, particularmente o Claude Opus 4 e 4.1 [desenvolvidos pela Anthropic], mostram uma capacidade rudimentar de perceber o que está acontecendo em suas redes neurais antes que isso afete suas respostas. Não se trata de consciência , mas de uma espécie de sensibilidade interna: uma espécie de radar que distingue um pensamento gerado espontaneamente de um implantado artificialmente .
Descoberta antropogênica: IA pode modular seus próprios estados internos"Em testes bem-sucedidos", escreve Anthropic , "o modelo diz coisas como 'Estou sentindo algo incomum' ou 'Detectei um pensamento injetado sobre...'". A palavra-chave aqui é 'detectar'. O modelo está sinalizando a percepção de uma anomalia em seu processamento antes que essa anomalia tenha a chance de afetar visivelmente suas saídas. Isso requer uma etapa computacional adicional além de simplesmente 'regurgitar' o vetor de controle como resposta."
Os pesquisadores também descobriram que os modelos conseguem controlar parcialmente suas ativações internas quando solicitados a fazê-lo. Se forem instruídos a pensar em uma palavra ou conceito específico, as áreas da rede neural associadas a esse conceito são fortemente ativadas. Se forem instruídos a não pensar nisso, a atividade diminui, mas não desaparece completamente — algo semelhante a quando uma pessoa é instruída a " não pensar em um urso polar " e acaba pensando nisso mesmo assim.
Essa diferença demonstra que o modelo não é um simples autômato reativo : ele é capaz, dentro de certos limites, de modular voluntariamente seus estados internos.
Por que tudo isso é importante?
Uma IA capaz de compreender seus próprios processos poderia explicar melhor suas decisões ou disfarçá-las com mais eficácia . Num futuro próximo, o verdadeiro desafio poderá não ser mais "enxergar dentro da máquina", mas sim verificar se a máquina está dizendo a verdade sobre o que vê dentro de si mesma.
La Repubblica




