Ensinando Gemini a identificar estrelas em explosão com apenas alguns exemplos.
Em uma publicação na Nature Astronomy, mostramos como o modelo Gemini do Google pode ser transformado em um assistente especializado em astronomia que classifica eventos cósmicos com alta precisão e explica seu raciocínio em linguagem simples, atingindo 93% de precisão em três conjuntos de dados, aprendendo com apenas 15 exemplos anotados por levantamento.
A astronomia moderna é uma caça ao tesouro em escala cósmica. Todas as noites, telescópios ao redor do mundo vasculham os céus, buscando eventos fugazes como estrelas em explosão ( supernovas ) que nos fornecem informações cruciais sobre o funcionamento do universo. Esses levantamentos geram milhões de alertas sobre possíveis descobertas, mas há um porém: a grande maioria não são eventos cósmicos reais, mas sinais "falsos" provenientes de rastros de satélites, impactos de raios cósmicos ou outros artefatos instrumentais.
Durante anos, os astrônomos têm usado modelos especializados de aprendizado de máquina, como redes neurais convolucionais (CNNs), para analisar esses dados. Embora eficazes, esses modelos muitas vezes funcionam como "caixas-pretas", fornecendo um simples rótulo de "real" ou "falso" sem qualquer explicação. Isso força os cientistas a confiar cegamente no resultado ou a gastar inúmeras horas verificando manualmente os candidatos — um gargalo que em breve se tornará intransponível com telescópios de última geração como o Observatório Vera C. Rubin , que deverá gerar 10 milhões de alertas por noite .
Esse desafio nos levou a fazer uma pergunta fundamental: um modelo multimodal de propósito geral, projetado para entender texto e imagens simultaneamente, poderia não apenas igualar a precisão desses modelos especializados, mas também explicar o que observa? Em nosso artigo “ Interpretação textual de classificações de imagens transitórias a partir de grandes modelos de linguagem ”, publicado na Nature Astronomy , demonstramos que a resposta é um sim categórico. Mostramos como o modelo Gemini do Google pode ser transformado em um assistente astronômico especializado, capaz de classificar eventos cósmicos com alta precisão e, crucialmente, explicar seu raciocínio em linguagem simples. Conseguimos isso empregando aprendizado com poucos exemplos (few-shot learning) no Gemini, fornecendo apenas 15 exemplos anotados por levantamento e instruções concisas para classificar e explicar eventos cósmicos com precisão.
Uma nova abordagem: Aprendendo com alguns exemplos.
Em vez de treinar um modelo especializado com milhões de imagens rotuladas, usamos uma técnica chamada aprendizado com poucos exemplos em um modelo de propósito geral. Fornecemos ao Gemini apenas 15 exemplos anotados para cada um dos três principais levantamentos astronômicos: Pan-STARRS , MeerLICHT e ATLAS . Cada exemplo consistia em três pequenas imagens: uma nova imagem do alerta de evento transitório, uma imagem de referência da mesma região do céu de uma observação anterior e uma imagem de diferença que destaca a mudança entre as duas. Junto com essas imagens, fornecemos um conjunto conciso de instruções, uma breve nota escrita por um especialista explicando a classificação e uma pontuação de interesse (por exemplo, "alto interesse" para uma provável supernova, "baixo interesse" para uma estrela variável ou "nenhum interesse" para um sinal falso), juntamente com uma explicação dessa pontuação.
O modelo teve que aprender a classificar eventos transitórios a partir de um conjunto diversificado de telescópios, cada um com resoluções, escalas de pixels e características de câmera diferentes. Como mostrado abaixo, o mesmo objeto celeste pode parecer bastante diferente em todos esses levantamentos, mas o Gemini foi capaz de generalizar a partir dos poucos exemplos fornecidos.

O Gemini opera em diversos levantamentos com diferentes escalas e resoluções de pixels. O mesmo objeto transitório é observado em três levantamentos diferentes, com as linhas correspondendo a Pan-STARRS ( superior ), MeerLICHT ( meio ) e ATLAS ( inferior ). Cada linha inclui, da esquerda para a direita , uma nova imagem, uma imagem de referência e uma imagem de diferença. As imagens têm o mesmo tamanho em pixels (100 × 100), mas diferem na cobertura angular do céu devido às escalas de pixels específicas de cada levantamento: Pan-STARRS (0,25" por pixel), MeerLICHT (0,56" por pixel) e ATLAS (1,8" por pixel).
Guiados apenas por essa entrada mínima, pedimos ao Gemini para classificar milhares de novos alertas. O modelo alcançou uma precisão média de 93% nos três conjuntos de dados, o que está em pé de igualdade com CNNs especializadas que exigem conjuntos de dados de treinamento massivos e cuidadosamente selecionados.
Mas, ao contrário de um classificador tradicional, instruímos o Gemini não apenas a gerar um rótulo, mas também a gerar um novo rótulo para cada candidato:
- Uma explicação textual descrevendo as características observadas e a lógica por trás da decisão.
- Uma pontuação de interesse para ajudar os astrônomos a priorizar observações de acompanhamento.
Isso transforma o modelo de uma caixa preta em um parceiro transparente e interativo. Os cientistas podem ler a explicação para entender o raciocínio do modelo, construindo confiança e permitindo uma tomada de decisão mais precisa.

O Gemini fornece classificações de eventos transitórios legíveis por humanos e prioridades de acompanhamento. Cada exemplo consiste em uma imagem nova, uma imagem de referência e uma imagem de diferença para um evento transitório candidato, seguidas pela classificação do Gemini, descrição textual e pontuação de interesse para acompanhamento. Os exemplos mostrados na figura são do conjunto de dados MeerLICHT.
Saber quando pedir ajuda
Uma etapa crucial na construção de um sistema confiável é garantir a qualidade de seus resultados. Reunimos um painel de 12 astrônomos profissionais que revisaram 200 classificações e explicações do Gemini. Utilizando uma única rubrica de coerência ancorada, de 0 a 5 (0 = alucinação, 5 = perfeitamente coerente), vinculada à correspondência entre o texto e as imagens novas/de referência/de diferença, além de uma simples verificação de Sim/Talvez/Não para confirmar se a pontuação de interesse subsequente concordava com a explicação, eles classificaram as descrições do modelo como altamente coerentes e úteis, confirmando o alinhamento com o raciocínio especializado.
Mas talvez nossa descoberta mais importante tenha sido que o Gemini consegue avaliar sua própria incerteza de forma eficaz. Solicitamos ao modelo que atribuísse uma "pontuação de coerência" às suas próprias explicações. Descobrimos que baixas pontuações de coerência eram um forte indicador de uma classificação incorreta. Em outras palavras, o modelo é bom em nos dizer quando provavelmente está errado. Os detalhes:

À esquerda: Pontuações médias de coerência de 12 astrônomos para 200 transientes do MeerLICHT, ordenadas pela pontuação média ( azul ). A maioria dos exemplos recebeu valores altos (4–5), indicando forte alinhamento com as expectativas do usuário. Inserção: A consistência entre a pontuação de interesse atribuída pelo modelo e sua própria explicação, com quase todos os casos marcados como autoconsistentes (ou seja, “Sim”). À direita : Pontuações médias de coerência do usuário, divididas pela correção da classificação feita pelo Gemini. Exemplos classificados corretamente (TPs e TNs, verde ) tendem a ter pontuações de coerência mais altas do que os incorretos (FPs e FNs, vermelho ).
Essa capacidade representa uma mudança radical para a criação de fluxos de trabalho confiáveis com "intervenção humana". Ao sinalizar automaticamente os casos mais incertos, o sistema pode direcionar a atenção dos astrônomos para onde ela é mais necessária. Isso cria um poderoso ciclo de feedback. Ao revisar os casos sinalizados e adicionar alguns desses exemplos desafiadores de volta ao prompt, podemos melhorar rapidamente o desempenho do modelo. Usando esse processo iterativo, melhoramos a precisão do modelo no conjunto de dados MeerLICHT de aproximadamente 93,4% para aproximadamente 96,7%, demonstrando como o sistema pode aprender e melhorar em parceria com especialistas humanos.
O futuro da descoberta científica
Acreditamos que essa abordagem marca um passo rumo a uma nova era de descobertas científicas — uma era acelerada por modelos que conseguem raciocinar sobre conjuntos de dados científicos complexos e explicar seus resultados em linguagem natural, mas também por modelos que conseguem raciocinar, explicar seus resultados e colaborar com pesquisadores.
Como esse método requer apenas um pequeno conjunto de exemplos e instruções em linguagem simples, ele pode ser rapidamente adaptado para novos instrumentos científicos, pesquisas e objetivos de investigação em diversas áreas. Imaginamos essa tecnologia como a base para "assistentes inteligentes" na ciência. Tais sistemas poderiam integrar múltiplas fontes de dados, verificar sua própria confiabilidade, solicitar observações de acompanhamento e encaminhar apenas as descobertas mais promissoras para cientistas humanos.
Este trabalho mostra um caminho para sistemas que aprendem conosco, explicam seu raciocínio e capacitam pesquisadores de qualquer área a se concentrarem no que mais importa: formular a próxima grande pergunta.