Home Notícias As habilidades de análise de dados do Gemini não são tão boas...

As habilidades de análise de dados do Gemini não são tão boas quanto o Google afirma

30
0

Um dos pontos de venda dos principais modelos de IA generativa do Google, Gemini 1.5 Pro e 1.5 Flash, é a quantidade de dados que eles supostamente podem processar e analisar. Em briefings de imprensa e demonstrações, o Google repetidamente afirmou que os modelos podem realizar tarefas antes impossíveis graças ao seu “longo contexto”, como resumir vários documentos de centenas de páginas ou pesquisar cenas em filmagens.

Mas novas pesquisas sugerem que os modelos não são, de fato, muito bons nessas coisas.

Dois separado estudos investigaram o quão bem os modelos Gemini do Google e outros fazem sentido a partir de uma quantidade enorme de dados — pense em trabalhos do tamanho de “Guerra e Paz”. Ambos descobriram que o Gemini 1.5 Pro e o 1.5 Flash têm dificuldade para responder perguntas sobre grandes conjuntos de dados corretamente; em uma série de testes baseados em documentos, os modelos deram a resposta certa apenas 40% 50% das vezes.

“Embora modelos como o Gemini 1.5 Pro possam processar tecnicamente contextos longos, vimos muitos casos indicando que os modelos não ‘compreendem’ realmente o conteúdo”, Marzena Karpinska, pós-doutoranda na UMass Amherst e coautora de um dos estudos, disse ao TechCrunch.

A janela de contexto do Gemini está ausente

O contexto de um modelo, ou janela de contexto, refere-se aos dados de entrada (por exemplo, texto) que o modelo considera antes de gerar a saída (por exemplo, texto adicional). Uma pergunta simples — “Quem ganhou a eleição presidencial dos EUA em 2020?” — pode servir como contexto, assim como um roteiro de filme, programa ou clipe de áudio. E conforme as janelas de contexto aumentam, também aumenta o tamanho dos documentos que estão sendo encaixados nelas.

As versões mais recentes do Gemini podem receber mais de 2 milhões de tokens como contexto. (“Tokens” são pedaços subdivididos de dados brutos, como as sílabas “fan”, “tas” e “tic” na palavra “fantástico”.) Isso equivale a cerca de 1,4 milhão de palavras, duas horas de vídeo ou 22 horas de áudio — o maior contexto de qualquer modelo comercialmente disponível.

Em um briefing no início deste ano, o Google mostrou várias demos pré-gravadas destinadas a ilustrar o potencial dos recursos de contexto longo do Gemini. Uma delas fez o Gemini 1.5 Pro pesquisar a transcrição da transmissão do pouso na lua da Apollo 11 — cerca de 402 páginas — em busca de citações contendo piadas, e então encontrar uma cena na transmissão que parecia semelhante a um esboço a lápis.

O vice-presidente de pesquisa do Google DeepMind, Oriol Vinyals, que liderou o briefing, descreveu o modelo como “mágico”.

“[1.5 Pro] realiza esse tipo de tarefa de raciocínio em cada página, em cada palavra”, disse ele.

Isso pode ter sido um exagero.

Num dos estudos acima mencionados que comparam estas capacidades, Karpinska, juntamente com investigadores do Instituto Allen de IA e de Princeton, pediu aos modelos que avaliassem afirmações verdadeiras/falsas sobre livros de ficção escritos em inglês. Os pesquisadores escolheram trabalhos recentes para que os modelos não pudessem “trapacear” confiando em conhecimento prévio, e salpicaram as declarações com referências a detalhes específicos e pontos da trama que seriam impossíveis de compreender sem ler os livros na íntegra.

Dada uma declaração como “Ao usar suas habilidades como Apoth, Nusis é capaz de fazer engenharia reversa do tipo de portal aberto pela chave de reagentes encontrada no baú de madeira de Rona”, Gemini 1.5 Pro e 1.5 Flash – tendo ingerido o livro relevante – teve que diga se a afirmação era verdadeira ou falsa e explique seu raciocínio.

Créditos da imagem: Universidade de Massachusetts Amherst

Testado em um livro com cerca de 260.000 palavras (~520 páginas) de extensão, os pesquisadores descobriram que o 1.5 Pro respondeu às declarações verdadeiro/falso corretamente 46,7% das vezes, enquanto o Flash respondeu corretamente apenas 20% das vezes. Isso significa que uma moeda é significativamente melhor em responder perguntas sobre o livro do que o modelo de aprendizado de máquina mais recente do Google. Fazendo a média de todos os resultados de benchmark, nenhum dos modelos conseguiu atingir uma chance maior do que aleatória em termos de precisão de resposta a perguntas.

“Percebemos que os modelos têm mais dificuldade em verificar afirmações que exigem a consideração de porções maiores do livro, ou mesmo de todo o livro, em comparação com afirmações que podem ser resolvidas pela recuperação de evidências em nível de frase”, disse Karpinska. “Qualitativamente, também observamos que os modelos lutam para verificar afirmações sobre informações implícitas que são claras para um leitor humano, mas não explicitamente declaradas no texto.”

O segundo dos dois estudos, de coautoria de pesquisadores da UC Santa Bárbara, testou a capacidade do Gemini 1.5 Flash (mas não do 1.5 Pro) de “raciocinar” vídeos – ou seja, pesquisar e responder perguntas sobre o conteúdo neles contidos. .

Os coautores criaram um conjunto de dados de imagens (por exemplo, uma foto de um bolo de aniversário) pareados com perguntas para o modelo responder sobre os objetos retratados nas imagens (por exemplo, “Qual personagem de desenho animado está neste bolo?”). Para avaliar os modelos, eles escolheram uma das imagens aleatoriamente e inseriram imagens “distratoras” antes e depois dela para criar filmagens semelhantes a slideshows.

O Flash não teve um desempenho tão bom. Em um teste em que o modelo transcreveu seis dígitos manuscritos de uma “apresentação de slides” de 25 imagens, o Flash acertou cerca de 50% das transcrições. A precisão caiu para cerca de 30% com oito dígitos.

“Em tarefas reais de resposta a perguntas sobre imagens, parece ser particularmente difícil para todos os modelos que testamos”, disse Michael Saxon, estudante de doutorado na UC Santa Barbara e um dos coautores do estudo, ao TechCrunch. “Essa pequena quantidade de raciocínio – reconhecer que um número está em um quadro e lê-lo – pode ser o que está quebrando o modelo.”

O Google está prometendo demais com Gemini

Nenhum dos estudos foi revisado por pares, nem analisam os lançamentos do Gemini 1.5 Pro e 1.5 Flash com contextos de 2 milhões de tokens. (Ambos testaram os lançamentos de contexto de 1 milhão de tokens.) E o Flash não foi criado para ser tão capaz quanto o Pro em termos de desempenho; o Google o anuncia como uma alternativa de baixo custo.

No entanto, ambos acrescentam combustível ao fogo que o Google vem prometendo demais — e entregando de menos — com o Gemini desde o começo. Nenhum dos modelos testados pelos pesquisadores, incluindo o GPT-4o da OpenAI e o Claude 3.5 Sonnet da Anthropic, teve um bom desempenho. Mas o Google é o único provedor de modelos que recebe o faturamento de janela de contexto em seus anúncios.

“Não há nada de errado com a simples alegação, ‘Nosso modelo pode levar X número de tokens’ com base nos detalhes técnicos objetivos”, disse Saxon. “Mas a questão é, que coisa útil você pode fazer com isso?”

A IA generativa, em termos gerais, está sendo cada vez mais analisada à medida que empresas (e investidores) ficam frustradas com as limitações da tecnologia.

Em um par de pesquisas recentes do Boston Consulting Group, cerca de metade dos entrevistados — todos executivos de nível C — disseram que não esperam que a IA generativa traga ganhos substanciais de produtividade e que estão preocupados com o potencial de erros e comprometimentos de dados decorrentes de ferramentas alimentadas por IA generativa. A PitchBook recentemente relatado que, durante dois trimestres consecutivos, a negociação generativa de IA nas fases iniciais diminuiu, caindo 76% em relação ao seu pico no terceiro trimestre de 2023.

Diante de chatbots resumidores de reuniões que evocam detalhes fictícios sobre pessoas e plataformas de busca de IA que basicamente equivalem a geradores de plágio, os clientes estão em busca de diferenciadores promissores. O Google — que correu, às vezes desajeitadamente, para alcançar seus rivais de IA generativa — estava desesperado para fazer do contexto da Gemini um desses diferenciadores.

Mas a aposta foi prematura, ao que parece.

“Ainda não estabelecemos uma maneira de realmente mostrar que está ocorrendo ‘raciocínio’ ou ‘compreensão’ em documentos longos, e basicamente todos os grupos que divulgam esses modelos estão montando suas próprias avaliações ad hoc para fazer essas afirmações”, disse Karpinska. . “Sem saber por quanto tempo o processamento de contexto é implementado – e as empresas não compartilham esses detalhes – é difícil dizer quão realistas são essas afirmações.”

O Google não respondeu a um pedido de comentário.

Tanto Saxon como Karpinska acreditam que os antídotos para as afirmações exageradas em torno da IA ​​generativa são melhores referências e, na mesma linha, maior ênfase na crítica de terceiros. Saxon observa que um dos testes mais comuns para contexto longo (liberalmente citado pelo Google em seus materiais de marketing), “agulha no palheiro”, mede apenas a capacidade de um modelo de recuperar informações específicas, como nomes e números, de conjuntos de dados – não responde perguntas complexas sobre essas informações.

“Todos os cientistas e a maioria dos engenheiros que usam esses modelos concordam essencialmente que nossa cultura de benchmark existente está quebrada”, disse Saxon, “então é importante que o público entenda que deve levar esses relatórios gigantescos contendo números como ‘inteligência geral em benchmarks’ com uma grande dose de ceticismo.”

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here