GPT-4o e Gemini 1.5 Pro: como os novos modelos de IA se comparam

May 25, 2024

Foi uma batalha de bots na semana passada, quando a startup de IA OpenAI organizou sua atualização de primavera um dia antes da conferência anual de desenvolvedores de I/O do Google.

Ambos anunciaram atualizações em seus modelos generativos de IA, lançando termos como tokens e parâmetros enquanto apresentavam novas interfaces e funcionalidades.

A terminologia fica complicada e nem sempre é fácil entender as distinções entre esses modelos – não apenas entre o ChatGPT da OpenAI e o Gemini do Google, mas também todos os seus concorrentes.

Não me interpretem mal; existem diferenças. Confira as análises do chatbot de IA de Imad Khan da CNET para conhecer suas experiências práticas e o que ele tem a dizer sobre os prós e os contras de cada uma.

Mas enquanto pensava em como comparar os modelos mais recentes, o GPT-4o da OpenAI e o Gemini 1.5 Pro, liguei para um contato de longa data para saber sua perspectiva. Ele é um executivo de tecnologia com 30 anos de experiência e muitas vezes ajudou a analisar tópicos complexos para mim. (Ele pediu para não ser identificado aqui porque não está autorizado a falar oficialmente.)

“Na minha cabeça, é como Coca-Cola e Pepsi. Você entende o que quero dizer?” ele disse.

Aqui está o que ele quer dizer:

Coca-Cola e Pepsi são colas, mas feitas com fórmulas diferentes e, como qualquer bebedor de refrigerante dirá, elas não têm o mesmo sabor. GPT-4o e Gemini 1.5 Pro são modelos de linguagem avançados, projetados de acordo com as especificações de seus fabricantes para entender as instruções de texto fornecidas e para gerar respostas de texto que parecem ter sido escritas por um ser humano. Mas as respostas do ChatGPT não serão exatamente iguais às do Gemini.

O mesmo, mas diferente.

Um foi desenvolvido para integração com produtos Microsoft e também funciona por conta própria. Um foi projetado para o Google.

Ambos os modelos oferecem versões gratuitas e de assinatura. ChatGPT Plus e Gemini Advanced custam US$ 20 por mês cada e oferecem acesso aos modelos mais recentes e mais recursos.

Bem-vindo à corrida armamentista da geração AI que começou com a chegada do ChatGPT no final de 2022. Startups como a Anthropic, bem como gigantes da tecnologia, incluindo Google e Microsoft, estão atualizando regularmente seus chatbots, ao mesmo tempo em que, em alguns casos, provocam avanços em vídeo, áudio e jogos enquanto disputam participação de mercado. (Veja nossas análises desses produtos, bem como conselhos e notícias, em nosso novo hub AI Atlas.)

E assim como você pode preferir o sabor de um refrigerante em vez do outro, depende de você, de suas necessidades e preferências, qual modelo de IA generativo você mais gosta. (E, claro, os esforços de branding e marketing de cada plataforma também desempenharão um papel.)

Aqui está uma visão mais detalhada de como o GPT-4o e o Gemini 1.5 Pro se comparam.

Janelas de contexto

Na semana passada, o Google anunciou que o Gemini 1.5 Pro está se expandindo para uma janela de contexto de 1 milhão de tokens, com promessas de dobrar para 2 milhões de tokens ainda este ano. (Foi lançado com uma janela de contexto de 128.000 tokens em fevereiro.)

O GPT-4o e o anterior GPT-4, por outro lado, possuem janelas de contexto de 128.000 fichas.

O que isso significa?

Ojanela de contexto é a extensão de texto que um modelo de linguagem pode considerar ao gerar uma resposta, como sua memória. Quanto maior a janela de contexto, mais ela poderá lembrar de conversas anteriores ou mais palavras, vídeo, áudio ou linhas de código poderá ingerir em seu nome. (Está nos bastidores do modelo, em oposição às janelas da interface do usuário nas quais você digita e recebe respostas.)

Portanto, o Gemini tem uma capacidade muito maior neste momento.

Mas quando se trata de parâmetros…

Nem a OpenAI nem o Google têm muito a dizer sobre parâmetros.

O que eles são?

Primeiro, uma rápida atualização sobre tokens: grandes modelos de linguagem dividem as consultas em tokens para processá-las e fornecer respostas. Os tokens podem ser tão curtos quanto um caractere e tão longos quanto uma palavra. Portanto, no exemplo “Olá, leitor”, um token pode ser “olá” e o outro, “leitor”. (Lembre-se de que o modelo está procurando padrões para prever o que virá a seguir.)

Os parâmetros determinam a capacidade do modelo de processar esses tokens e gerar texto com precisão.

Você também pode pensar em parâmetros como neurônios em seu cérebro. Quanto mais neurônios você tiver, mais complexos podem ser seus pensamentos. O mesmo se aplica aos parâmetros.

Um porta-voz disse que o Google não divulgou publicamente os parâmetros de seus modelos. As estimativas variam de 1,6 trilhão para 175 trilhões de parâmetros.

Não ficou imediatamente claro quantos parâmetros o GPT-4o usa, mas em seu anúncio, Mira Murati, CTO da OpenAI, disse que o modelo “traz inteligência de nível GPT-4 para tudo”. GPT-4, lançado em março de 2023, supostamente usa 1,8 trilhão de parâmetros para processar consultas.

Portanto, não podemos fazer uma comparação exata aqui, mas é justo dizer que ambos os modelos têm muitos neurônios para pensamentos complexos.

Acesso à informação

Na análise de Khan sobre o Gemini, ele observou que sua conexão com a Internet deveria lhe dar uma vantagem sobre o GPT-3.5 – o modelo de linguagem na versão gratuita do ChatGPT na época – já que pode obter informações mais atualizadas.

Isso é importante porque os modelos de linguagem têm limites de conhecimento. Ou seja, seus dados de treinamento incluem informações apenas até um determinado momento. Para GPT-4o, o limite de conhecimento é Outubro de 2023. Para Gêmeos, é “início de 2023”.

No entanto, além de sua ferramenta ser treinada com dados mais recentes, a OpenAI assinou acordos com a plataforma social Reddit e com a empresa de mídia Notícias Corp. para obter conteúdo mais atualizado. E então qualquer vantagem pode ser discutível agora.

línguas

O GPT-4o estará disponível em 50 idiomas. Gemini 1.5 Pro está disponível em 35.

Mas dada a história de 18 anos do Google com o Google Translate, ele possui potencialmente muito mais dados para treinar seus modelos em recursos multilíngues.

Interfaces

Uma última semelhança: ambos os modelos introduziram recentemente funcionalidades para se tornarem mais conversacionais.

Para ChatGPT-4o, isso inclui uma nova interface que permite conversar com o chatbot ou compartilhar vídeos ao vivo. (Ele ainda usa a frase familiar “Ei, ChatGPT”.)

Você pode interromper o modelo, e o modelo pode até captar suas emoções.

Por sua vez, o Google lançou agora o Gemini Live, que permite conversar com o Gemini. Você também pode interromper o Gemini Live.

Nota do editor: A CNET usou um mecanismo de IA para ajudar a criar várias dezenas de histórias, que são rotuladas de acordo. A nota que você está lendo está anexada a artigos que tratam substancialmente do tópico de IA, mas são criados inteiramente por nossos editores e escritores especializados. Para mais, veja nosso Política de IA.

Fuente

Facebook
Twitter
Pinterest
WhatsApp

Previous articleDoncic decide nos segundos finais e Mavericks abre dois a zero na casa dos Wolves
Next articleA Ucrânia deve ou não deve atacar alvos na Rússia? "Precisamos de clareza"

Francesco Schumm

GPT-4o e Gemini 1.5 Pro: como os novos modelos de IA se comparam

Janelas de contexto

Mas quando se trata de parâmetros…

Acesso à informação

línguas

Interfaces

Recent Post

"Estrela da Casa" acelera e terá eliminação dupla na reta final...

James Cameron acha o valor de produção de ‘O Exterminador do...

O questionário ‘Líderes ativos do RBI’

Grande atualização na saga do aluguel de US$ 950 por semana...

Otti fará discurso principal em conferência internacional sobre direitos humanos e...