A rBio da Chan Zuckerberg Initiative usa células virtuais para treinar IA, ignorando o trabalho de laboratório

Quer insights mais inteligentes na sua caixa de entrada? Assine nossas newsletters semanais para receber apenas o que importa para líderes empresariais em IA, dados e segurança. Assine agora
A Iniciativa Chan Zuckerberg anunciou na quinta-feira o lançamento do rBio , o primeiro modelo de inteligência artificial treinado para raciocinar sobre biologia celular usando simulações virtuais em vez de exigir experimentos de laboratório caros — um avanço que pode acelerar drasticamente a pesquisa biomédica e a descoberta de medicamentos.
O modelo de raciocínio, detalhado em um artigo de pesquisa publicado no bioRxiv , demonstra uma nova abordagem chamada " verificação suave ", que utiliza previsões de modelos celulares virtuais como sinais de treinamento, em vez de depender apenas de dados experimentais. Essa mudança de paradigma pode ajudar pesquisadores a testar hipóteses biológicas computacionalmente antes de investir tempo e recursos em trabalhos laboratoriais dispendiosos.
“A ideia é que você tenha esses modelos superpoderosos de células e possa usá-los para simular resultados em vez de testá-los experimentalmente em laboratório”, disse Ana-Maria Istrate, pesquisadora sênior do CZI e principal autora da pesquisa, em uma entrevista. “O paradigma até agora tem sido que 90% do trabalho em biologia é testado experimentalmente em laboratório, enquanto 10% é computacional. Com modelos celulares virtuais, queremos inverter esse paradigma.”
O anúncio representa um marco significativo para a meta ambiciosa do CZI de "curar, prevenir e controlar todas as doenças até o final deste século". Sob a liderança da pediatra Priscilla Chan e do CEO da Meta, Mark Zuckerberg, a iniciativa filantrópica de US$ 6 bilhões tem concentrado cada vez mais seus recursos na interseção entre inteligência artificial e biologia .
O escalonamento da IA atinge seus limites
Limites de energia, aumento nos custos de tokens e atrasos na inferência estão remodelando a IA empresarial. Participe do nosso salão exclusivo para descobrir como as principais equipes estão:
- Transformando energia em vantagem estratégica
- Arquitetando inferência eficiente para ganhos reais de produtividade
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Garanta sua vaga e fique na frente : https://bit.ly/4mwGngO
A rBio aborda um desafio fundamental na aplicação da IA à pesquisa biológica. Enquanto modelos de linguagem de grande porte como o ChatGPT se destacam no processamento de texto, modelos de base biológica normalmente trabalham com dados moleculares complexos que não podem ser facilmente consultados em linguagem natural. Os cientistas têm lutado para preencher essa lacuna entre modelos biológicos poderosos e interfaces amigáveis.
“Modelos básicos da biologia — modelos como GREmLN e TranscriptFormer — são construídos com base em modalidades de dados biológicos, o que significa que não é possível interagir com eles em linguagem natural”, explicou Istrate. “É preciso encontrar maneiras complexas de induzi-los.”
O novo modelo resolve esse problema destilando o conhecimento do TranscriptFormer do CZI — um modelo de célula virtual treinado em 112 milhões de células de 12 espécies abrangendo 1,5 bilhão de anos de evolução — em um sistema de IA de conversação que os pesquisadores podem consultar em inglês simples.
A principal inovação está na metodologia de treinamento da rBio . Modelos tradicionais de raciocínio aprendem com perguntas com respostas inequívocas, como equações matemáticas. Mas questões biológicas envolvem incertezas e resultados probabilísticos que não se encaixam perfeitamente em categorias binárias.
A equipe de pesquisa do CZI, liderada pelo Diretor Sênior de IA Theofanis Karaletsos e pela Istrate, superou esse desafio usando aprendizado por reforço com recompensas proporcionais. Em vez da simples verificação de sim ou não, o modelo recebe recompensas proporcionais à probabilidade de suas previsões biológicas se alinharem à realidade, conforme determinado por simulações de células virtuais.
“Aplicamos novos métodos ao treinamento de LLMs”, explica o artigo de pesquisa . “Usando um modelo de linguagem pronto para uso como estrutura, a equipe treinou o rBio com aprendizado por reforço, uma técnica comum na qual o modelo é recompensado por respostas corretas. Mas, em vez de fazer uma série de perguntas de sim/não, os pesquisadores ajustaram as recompensas proporcionalmente à probabilidade de as respostas do modelo estarem corretas.”
Essa abordagem permite que os cientistas façam perguntas complexas como "A supressão das ações do gene A resultaria em um aumento na atividade do gene B?" e recebam respostas cientificamente fundamentadas sobre mudanças celulares, incluindo mudanças de estados saudáveis para doentes.
Em testes com o benchmark PerturbQA — um conjunto de dados padrão para avaliar a predição de perturbações genéticas — o rBio demonstrou desempenho competitivo com modelos treinados em dados experimentais. O sistema superou modelos de linguagem de base de grande porte e igualou o desempenho de modelos biológicos especializados em métricas-chave.
Particularmente notável, o rBio demonstrou fortes capacidades de “ aprendizagem de transferência ”, aplicando com sucesso o conhecimento sobre padrões de coexpressão genética aprendidos no TranscriptFormer para fazer previsões precisas sobre efeitos de perturbação genética — uma tarefa biológica completamente diferente.
“Mostramos que, no conjunto de dados PerturbQA, modelos treinados usando verificadores suaves aprendem a generalizar em linhas celulares fora de distribuição, potencialmente ignorando a necessidade de treinar em dados experimentais específicos da linha celular”, escreveram os pesquisadores.
Quando aprimorado com técnicas de estímulo à cadeia de pensamento que estimulam o raciocínio passo a passo, o rBio alcançou desempenho de última geração, superando o modelo líder anterior, o SUMMER .
O anúncio da rBio ocorre em um momento em que a CZI passou por mudanças organizacionais significativas , redirecionando seus esforços de uma ampla missão filantrópica, que incluía justiça social e reforma educacional, para uma ênfase mais direcionada à pesquisa científica. A mudança gerou críticas de alguns ex-funcionários e beneficiários, que viram a organização abandonar causas progressistas.
No entanto, para Istrate, que trabalha no CZI há seis anos, o foco em IA biológica representa uma evolução natural de prioridades de longa data. "Minha experiência e meu trabalho não mudaram muito. Participo da iniciativa científica desde que estou no CZI", disse ela.
O foco em modelos celulares virtuais se baseia em quase uma década de trabalho fundamental. O CZI investiu fortemente na construção de atlas celulares — bancos de dados abrangentes que mostram quais genes estão ativos em diferentes tipos de células entre espécies — e no desenvolvimento da infraestrutura computacional necessária para treinar grandes modelos biológicos.
“Estou realmente animado com o trabalho que vem sendo feito no CZI há anos, porque estamos nos preparando para chegar a esse momento”, observou Istrate, referindo-se aos investimentos anteriores da organização em plataformas de dados e transcriptômica de células únicas.
Uma vantagem crucial da abordagem do CZI advém de seus anos de cuidadosa curadoria de dados. A organização opera o CZ CELLxGENE , um dos maiores repositórios de dados biológicos de células únicas, onde as informações passam por rigorosos processos de controle de qualidade.
“Geramos alguns dos principais atlas de dados iniciais para transcriptômica, e eles foram gerados com a diversidade em mente para minimizar o viés em termos de tipos de células, ancestralidade, tecidos e doadores”, explicou Istrate.
Essa atenção à qualidade dos dados torna-se crucial ao treinar modelos de IA que podem influenciar decisões médicas. Ao contrário de alguns esforços comerciais de IA que dependem de conjuntos de dados disponíveis publicamente, mas potencialmente tendenciosos, os modelos da CZI se beneficiam de dados biológicos cuidadosamente selecionados, projetados para representar diversas populações e tipos de células.
O compromisso da CZI com o desenvolvimento de código aberto a distingue de concorrentes comerciais como o Google DeepMind e empresas farmacêuticas que desenvolvem ferramentas proprietárias de IA. Todos os modelos da CZI, incluindo o rBio, estão disponíveis gratuitamente na Plataforma de Células Virtuais da organização, com tutoriais que podem ser executados em notebooks gratuitos do Google Colab.
“Acho que a questão do código aberto é muito importante, porque é um valor fundamental que temos desde que iniciamos o CZI”, disse Istrate. “Um dos principais objetivos do nosso trabalho é acelerar a ciência. Portanto, tudo o que fazemos é para que seja de código aberto apenas para esse propósito.”
Esta estratégia visa democratizar o acesso a ferramentas sofisticadas de IA biológica, beneficiando potencialmente instituições de pesquisa menores e startups que não dispõem de recursos para desenvolver tais modelos de forma independente. A abordagem reflete a missão filantrópica da CZI, ao mesmo tempo em que cria efeitos de rede que podem acelerar o progresso científico.
As potenciais aplicações vão muito além da pesquisa acadêmica. Ao permitir que cientistas testem rapidamente hipóteses sobre interações genéticas e respostas celulares, a rBio pode acelerar significativamente os estágios iniciais da descoberta de medicamentos — um processo que normalmente leva décadas e custa bilhões de dólares.
A capacidade do modelo de prever como perturbações genéticas afetam o comportamento celular pode ser particularmente valiosa para a compreensão de doenças neurodegenerativas como o Alzheimer, onde os pesquisadores precisam identificar como mudanças genéticas específicas contribuem para a progressão da doença.
“As respostas a essas perguntas podem moldar nossa compreensão das interações genéticas que contribuem para doenças neurodegenerativas como o Alzheimer”, observa o artigo de pesquisa. “Esse conhecimento pode levar a uma intervenção mais precoce, talvez interrompendo completamente essas doenças algum dia.”
O rBio representa o primeiro passo na visão mais ampla do CZI de criar "modelos celulares virtuais universais" que integrem conhecimento de múltiplos domínios biológicos. Atualmente, os pesquisadores precisam trabalhar com modelos separados para diferentes tipos de dados biológicos — transcriptômica, proteômica, imagens — sem maneiras fáceis de combinar insights.
“Um dos nossos grandes desafios é construir esses modelos virtuais de células e entender as células. Como mencionei nos próximos anos, é como integrar o conhecimento de todos esses modelos superpoderosos de biologia”, disse Istrate. “O principal desafio é como integrar todo esse conhecimento em um único espaço?”
Os pesquisadores demonstraram essa capacidade de integração treinando modelos rBio que combinam múltiplas fontes de verificação — TranscriptFormer para dados de expressão gênica, redes neurais especializadas para predição de perturbações e bancos de dados de conhecimento como o Gene Ontology . Esses modelos combinados superaram significativamente as abordagens de fonte única.
Apesar de seu desempenho promissor, o rBio enfrenta diversos desafios técnicos. A expertise atual do modelo concentra-se principalmente na previsão de perturbações genéticas, embora os pesquisadores indiquem que qualquer domínio biológico coberto pelo TranscriptFormer poderia, teoricamente, ser incorporado.
A equipe continua trabalhando para melhorar a experiência do usuário e implementar proteções apropriadas para evitar que o modelo forneça respostas fora de sua área de especialização — um desafio comum na implantação de grandes modelos de linguagem para domínios especializados.
“Embora o rBio esteja pronto para pesquisa, a equipe de engenharia do modelo continua aprimorando a experiência do usuário, porque a resolução flexível de problemas que torna os modelos de raciocínio conversacionais também apresenta uma série de desafios”, explica o artigo de pesquisa.
O desenvolvimento da rBio ocorre em um contexto de competição cada vez mais acirrada na descoberta de medicamentos impulsionada por IA. Grandes empresas farmacêuticas e de tecnologia estão investindo bilhões em recursos de IA biológica, reconhecendo o potencial de transformar a forma como os medicamentos são descobertos e desenvolvidos.
A abordagem de código aberto da CZI pode acelerar essa transformação, disponibilizando ferramentas sofisticadas para a comunidade de pesquisa em geral. Pesquisadores acadêmicos, startups de biotecnologia e até mesmo empresas farmacêuticas estabelecidas agora podem acessar recursos que, de outra forma, exigiriam esforços substanciais de desenvolvimento interno de IA.
O momento se mostra significativo, visto que o governo Trump propôs cortes substanciais no orçamento dos Institutos Nacionais de Saúde (NIH), potencialmente ameaçando o financiamento público para pesquisa biomédica. O investimento contínuo do CZI em infraestrutura de IA biológica pode ajudar a manter o ritmo da pesquisa durante períodos de redução do apoio governamental.
O lançamento da rBio marca mais do que apenas mais um avanço em IA — representa uma mudança fundamental na forma como a pesquisa biológica pode ser conduzida. Ao demonstrar que simulações virtuais podem treinar modelos com a mesma eficácia de experimentos laboratoriais caros, a CZI abriu caminho para que pesquisadores em todo o mundo acelerem seu trabalho sem as restrições tradicionais de tempo, dinheiro e recursos físicos.
Enquanto o CZI se prepara para disponibilizar gratuitamente o rBio por meio de sua Plataforma de Células Virtuais, a organização continua expandindo seus recursos de IA biológica com modelos como o GREmLN para detecção de câncer e o trabalho contínuo em tecnologias de imagem. O sucesso da abordagem de verificação suave pode influenciar a forma como outras organizações treinam IA para aplicações científicas, reduzindo potencialmente a dependência de dados experimentais e mantendo o rigor científico.
Para uma organização que começou com o objetivo audacioso de curar todas as doenças até o final do século, a rBio oferece algo que há muito tempo escapa aos pesquisadores médicos: uma maneira de fazer as perguntas mais difíceis da biologia e obter respostas cientificamente fundamentadas no tempo que leva para digitar uma frase. Em um campo onde o progresso tradicionalmente é medido em décadas, essa velocidade pode fazer toda a diferença entre doenças que marcam gerações e doenças que se tornam memórias distantes.
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais newsletters do VB aqui .
Ocorreu um erro.

venturebeat