Quando você pede a um chatbot de IA como ChatGPT, Claude, Copilot ou Gemini para fazer algo, pode parecer que você está interagindo com uma pessoa.

Mas você não é. Na verdade, esses chatbots não entendem o significado das palavras da mesma forma que nós. Em vez disso, eles são a interface que usamos para interagir com grandes modelos de linguagem, ou LLMs. Essa tecnologia subjacente é treinada para reconhecer como as palavras são usadas e quais palavras aparecem frequentemente juntas, para que possa prever palavras, frases ou parágrafos futuros.

As ferramentas generativas de IA estão constantemente refinando sua compreensão das palavras para fazer melhores previsões. Alguns, incluindo Lumiere, do Google, e Sora, da OpenAI, estão até aprendendo a gerar imagens, vídeo e áudio.

Etiqueta de distintivo de arte AI Atlas

Tudo isso faz parte de um fluxo constante de superioridade iniciado pela introdução do ChatGPT no final de 2022, seguido pela chegada da pesquisa Bing aprimorada por IA da Microsoft e do Bard do Google (agora Gemini). Nos meses seguintes, a Microsoft lançou o Copilot, o Meta atualizou o Llama, a OpenAI lançou o Dall-E 3 e o GPT-4 Turbo, o Google anunciou o Gemini Ultra 1.0 e provocou o Gemini 1.5 Pro, enquanto o Anthropic estreou o Claude 3. O Google e a Adobe lançaram amostras de ferramentas que pode gerar jogos virtuais e música para mostrar aos consumidores para onde a tecnologia está indo.

Tecnologia de ponta como esta provavelmente nunca foi tão acessível. E as empresas que o desenvolvem estão ansiosas por atraí-lo para os seus ecossistemas e para reivindicar as suas reivindicações num mercado projetado para valer US$ 1,3 trilhão até 2032.

Se você está se perguntando o que os LLMs têm a ver com IA, este explicador é para você. (E não deixe de conferir nosso novo guia AI Atlas para análises práticas de produtos, bem como notícias, dicas, vídeos e muito mais.)

O que é um modelo de linguagem?

Você pode pensar em um modelo de linguagem como um adivinho de palavras.

“Um modelo de linguagem é algo que tenta prever a aparência da linguagem produzida pelos humanos”, disse Mark Riedl, professor da Georgia Tech School of Interactive Computing e diretor associado do Georgia Tech Machine Learning Center. “O que torna algo um modelo de linguagem é se ele pode prever palavras futuras dadas palavras anteriores.”

Esta é a base da funcionalidade de preenchimento automático quando você está enviando mensagens de texto, bem como dos chatbots de IA.

O que é um modelo de linguagem grande?

Um modelo de linguagem grande é, por definição, um modelo de linguagem grande.

Quão grande?

Esses modelos são medidos no que é conhecido como “parâmetros”.

O que é um parâmetro?

Bem, os LLMs usam redes neurais, que são modelos de aprendizado de máquina que recebem uma entrada e realizam cálculos matemáticos para produzir uma saída. O número de variáveis ​​nesses cálculos são parâmetros. Um grande modelo de linguagem pode ter 1 bilhão de parâmetros ou mais.

“Sabemos que eles são grandes quando produzem um parágrafo completo de texto fluido e coerente”, disse Riedl.

Existe um modelo de linguagem pequena?

Sim. Empresas de tecnologia como a Microsoft estão lançando modelos menores, projetados especificamente para telefones e PCs, que não exigem os mesmos recursos computacionais que um LLM, mas que ajudam os usuários a aproveitar o poder da IA ​​generativa.

Como os grandes modelos de linguagem aprendem?

Os LLMs aprendem por meio de um processo chamado aprendizado profundo.

“É como quando você ensina uma criança – você mostra muitos exemplos”, disse Jason Alan Snyder, CTO global da agência de publicidade Momentum Worldwide.

Em outras palavras, você alimenta o LLM com uma biblioteca de conteúdo (conhecido como dados de treinamento), como livros, artigos, códigos e postagens em mídias sociais, para ajudá-lo a entender como as palavras são usadas em diferentes contextos – e até mesmo as nuances mais sutis de linguagem.

Durante esse processo, o modelo digere muito mais do que uma pessoa poderia ler durante a vida – algo da ordem de trilhões de tokens.

Os tokens ajudam os modelos de IA a quebrar e processar texto. Você pode pensar em um modelo de IA como um leitor que precisa de ajuda. O modelo divide uma frase em pedaços menores, ou tokens – que equivalem a quatro caracteres em inglês, ou cerca de três quartos de uma palavra – para que possam compreender cada pedaço e depois o significado geral.

A partir daí, o LLM pode analisar como as palavras se conectam e determinar quais palavras aparecem frequentemente juntas.

“É como construir um mapa gigante de relações entre palavras”, disse Snyder. “E então ele começa a ser capaz de fazer algo realmente divertido e legal, e prevê qual será a próxima palavra… e compara a previsão com a palavra real nos dados e ajusta o mapa interno com base em sua precisão.”

Esta previsão e ajuste acontecem milhares de milhões de vezes, pelo que o LLM está constantemente a refinar a sua compreensão da linguagem e a melhorar a identificação de padrões e a previsão de palavras futuras. Pode até aprender conceitos e fatos a partir dos dados para responder perguntas, gerar formatos de texto criativos e traduzir idiomas. Mas eles não entendem o significado das palavras como nós – apenas as relações estatísticas.

Os LLMs também aprendem a melhorar suas respostas por meio do aprendizado reforçado a partir do feedback humano.

“Você obtém um julgamento ou uma preferência dos humanos sobre qual resposta foi melhor, dada a informação que foi dada”, disse Maarten Sap, professor assistente do Language Technologies Institute da Carnegie Mellon. “E então você pode ensinar o modelo a melhorar suas respostas.”

O que os grandes modelos de linguagem fazem?

Dada uma série de palavras de entrada, um LLM pode prever a próxima palavra.

Por exemplo, considere a frase: “Fui navegar no azul profundo…”

A maioria das pessoas provavelmente adivinharia “mar” porque velejar, profundo e azul são palavras que associamos ao mar. Em outras palavras, cada palavra configura o contexto para o que deve vir a seguir.

“Esses grandes modelos de linguagem, por terem muitos parâmetros, podem armazenar muitos padrões”, disse Riedl. “Eles são muito bons em conseguir identificar essas pistas e fazer suposições muito, muito boas sobre o que vem a seguir.”

O que os grandes modelos de linguagem fazem realmente bem?

Os LLMs são muito bons em descobrir a conexão entre palavras e produzir textos que pareçam naturais.

“Eles recebem uma entrada, que muitas vezes pode ser um conjunto de instruções, como ‘Faça isso por mim’ ou ‘Conte-me sobre isso’ ou ‘Resuma isso’ e são capazes de extrair esses padrões da entrada e produzir um longo sequência de resposta fluida”, disse Riedl.

Onde os grandes modelos de linguagem enfrentam dificuldades?

Mas eles têm vários pontos fracos.

Primeiro, eles não são bons em dizer a verdade. Na verdade, às vezes eles inventam coisas que parecem verdadeiras, como quando o ChatGPT citou seis processos judiciais falsos em um resumo jurídico ou quando Bard erroneamente creditado ao Telescópio Espacial James Webb ao tirar as primeiras fotos de um planeta fora do nosso sistema solar. Isso é conhecido como alucinações.

“Eles são extremamente pouco confiáveis, no sentido de que confabulam e inventam muitas coisas”, disse Sap. “Eles não são treinados ou projetados de forma alguma para cuspir algo verdadeiro.”

Eles também enfrentam dúvidas que são fundamentalmente diferentes de tudo que já encontraram antes. Isso porque eles estão focados em encontrar e responder a padrões.

Um bom exemplo é um problema matemático com um conjunto único de números.

“Pode não ser possível fazer esse cálculo corretamente porque não está realmente resolvendo a matemática”, disse Riedl. “Ele está tentando relacionar sua questão de matemática com exemplos anteriores de questões de matemática que já viu.”

E embora sejam excelentes em prever palavras, não são bons em prever o futuro, o que inclui planejamento e tomada de decisões.

“A ideia de planejar da maneira que os humanos fazem… pensando nas diferentes contingências e alternativas e fazendo escolhas, parece ser um obstáculo muito difícil para nossos atuais grandes modelos de linguagem”, disse Riedl.

Por fim, eles enfrentam dificuldades com os eventos atuais porque seus dados de treinamento normalmente só vão até um determinado ponto e tudo o que acontece depois disso não faz parte de sua base de conhecimento. E porque não têm a capacidade de distinguir entre o que é factualmente verdadeiro e o que é provável, podem fornecer com segurança informações incorrectas sobre acontecimentos actuais.

Eles também não interagem com o mundo da mesma forma que nós.

“Isso torna difícil para eles compreenderem as nuances e complexidades dos eventos atuais que muitas vezes exigem uma compreensão do contexto, da dinâmica social e das consequências do mundo real”, disse Snyder.

Como evoluirão os grandes modelos de linguagem?

Já estamos começando a ver empresas de IA generativa como OpenAI e Adobe estrearem modelos multimodais, que são treinados não apenas em texto, mas em imagens, vídeo e áudio.

Provavelmente também veremos melhorias nas habilidades dos LLMs não apenas para traduzir idiomas do inglês, mas também para compreender e conversar em outros idiomas.

Também poderemos ver a evolução das capacidades de recuperação além daquilo em que os modelos foram treinados. Isso poderia incluir o aproveitamento de mecanismos de busca como o Google para que os modelos possam realizar pesquisas na web e, em seguida, alimentar esses resultados no LLM.

Se os LLMs estivessem conectados a mecanismos de busca, eles poderiam processar informações em tempo real muito além dos dados de treinamento. Isso significa que eles poderiam entender melhor as dúvidas e fornecer respostas mais precisas e atualizadas.

“Isso ajuda nossos modelos de ligação a se manterem atualizados e atualizados, porque eles podem realmente analisar novas informações na Internet e trazê-las”, disse Riedl.

Existem alguns problemas. A pesquisa na Web pode piorar as alucinações sem mecanismos adequados de verificação de fatos. E os LLMs precisariam aprender como avaliar a confiabilidade das fontes da web antes de citá-las. Além disso, seria necessário muito poder de computação (caro) para processar resultados de pesquisa na web sob demanda.

O Bing com tecnologia de IA, que a Microsoft anunciou em fevereiro de 2023, é um conceito semelhante. No entanto, em vez de recorrer aos motores de busca para melhorar as suas respostas, o Bing está a usar a IA para melhorar o seu próprio motor de busca. Isso se deve, em parte, à melhor compreensão do verdadeiro significado por trás das consultas dos consumidores e à melhor classificação dos resultados dessas consultas.

Nota do editor: A CNET está usando um mecanismo de IA para ajudar a criar algumas histórias. Para mais, veja esta postagem.



Fuente