Tecnologia

Muitos modelos

April 19, 2024

Quantos modelos de IA são demais? Depende de como você encara as coisas, mas 10 por semana provavelmente é um pouco demais. Isso é aproximadamente quantos vimos sendo lançados nos últimos dias, e é cada vez mais difícil dizer se e como esses modelos se comparam entre si, se é que alguma vez foi possível começar. Então qual é o objetivo?

Estamos em um momento estranho na evolução da IA, embora, é claro, tenha sido muito estranho o tempo todo. Estamos vendo uma proliferação de modelos grandes e pequenos, desde desenvolvedores de nicho até grandes e bem financiados.

Vamos apenas resumir a lista desta semana, certo? Tentei condensar o que diferencia cada modelo.

LLaMa-3: O mais recente modelo de linguagem grande carro-chefe “aberto” da Meta. (O termo “aberto” é contestado neste momento, mas este projeto é amplamente utilizado pela comunidade de qualquer maneira.)
Mistral 8×22: Um modelo “misto de especialistas”, no lado grande, de uma roupa francesa que se esquivou da abertura que antes abraçavam.
Difusão Estável 3 Turbo: Um SD3 atualizado para acompanhar a nova API aberta do Stability. Pegar emprestado “turbo” da nomenclatura de modelos da OpenAI é um pouco estranho, mas tudo bem.
Assistente de IA do Adobe Acrobat: “Fale com seus documentos” do gorila de documentos de 800 libras. Tenho certeza que isso é principalmente um wrapper para ChatGPT, no entanto.
Doce Núcleo: De uma pequena equipe anteriormente empregada pela Big AI, um modelo multimodal criado do zero que é pelo menos nominalmente competitivo com os grandes.
Idefics2: Um modelo multimodal mais aberto, construído sobre modelos recentes e menores do Mistral e do Google.
OLMo-1.7-7B: Uma versão maior do LLM do AI2, entre as mais abertas que existem, e um trampolim para um futuro modelo em escala 70B.
Pilha-T5: Uma versão do velho confiável T5 modelo ajustado no banco de dados de código da Pilha. O mesmo T5 que você conhece e adora, mas com codificação melhor.
Bússola Cohere: Um “modelo de incorporação” (se você ainda não conhece, não se preocupe) focado na incorporação de vários tipos de dados para cobrir mais casos de uso.
Imagine Flash: O mais novo modelo de geração de imagens da Meta, contando com um novo método de destilação para acelerar a difusão sem comprometer excessivamente a qualidade.
Ilimitado: “Uma IA personalizada alimentada pelo que você viu, disse ou ouviu. EUÉ um aplicativo da web, um aplicativo para Mac, um aplicativo para Windows e um wearable. 😬

São 11, porque um foi anunciado enquanto eu escrevia isto. E não são todos os modelos lançados ou pré-visualizados esta semana! São apenas aqueles que vimos e discutimos. Se fôssemos relaxar um pouco as condições de inclusão, haveria dezenas: alguns modelos existentes bem ajustados, alguns combos como o Idefics 2, alguns experimentais ou de nicho, e assim por diante. Sem mencionar as novas ferramentas de construção desta semana (tocha) e lutando contra (Esmalte 2.0) IA generativa!

O que devemos fazer com esta avalanche sem fim? Não podemos “revisar” todos eles. Então, como podemos ajudar vocês, nossos leitores, a entender e acompanhar todas essas coisas?

A verdade é que você não precisa acompanhar. Alguns modelos como ChatGPT e Gemini evoluíram para plataformas web inteiras, abrangendo vários casos de uso e pontos de acesso. Outros grandes modelos de linguagem como LLaMa ou OLMo — embora tecnicamente compartilhem uma arquitetura básica — na verdade não desempenham a mesma função. Eles pretendem permanecer em segundo plano como um serviço ou componente, e não em primeiro plano como uma marca.

Há alguma confusão deliberada sobre essas duas coisas, porque os desenvolvedores dos modelos querem pegar emprestado um pouco da fanfarra associada aos principais lançamentos de plataformas de IA, como o GPT-4V ou o Gemini Ultra. Todo mundo quer que você pense que a libertação deles é importante. E embora provavelmente seja importante para alguém, esse alguém quase certamente não é você.

Pense nisso no sentido de outra categoria ampla e diversificada, como os carros. Quando eles foram inventados, você acabou de comprar “um carro”. Então, um pouco mais tarde, você poderia escolher entre um carro grande, um carro pequeno e um trator. Hoje em dia, existem centenas de carros lançados todos os anos, mas você provavelmente não precisa estar ciente de nem um em cada dez deles, porque nove em cada dez não são um carro que você precisa ou mesmo um carro como você entende o termo. Da mesma forma, estamos passando da era grande/pequena/trator da IA em direção à era da proliferação, e mesmo os especialistas em IA não conseguem acompanhar e testar todos os modelos que estão sendo lançados.

O outro lado dessa história é que já estávamos nessa fase muito antes do lançamento do ChatGPT e dos outros grandes modelos. Muito menos pessoas liam sobre isto há 7 ou 8 anos, mas mesmo assim cobrimos o assunto porque era claramente uma tecnologia à espera do seu momento de ruptura. Artigos, modelos e pesquisas eram publicados constantemente, e conferências como SIGGRAPH e NeurIPS estavam repletas de engenheiros de aprendizado de máquina comparando notas e desenvolvendo o trabalho uns dos outros. Aqui está uma história de compreensão visual que escrevi em 2011!

Essa atividade ainda está em andamento todos os dias. Mas como a IA se tornou um grande negócio – sem dúvida o maior em tecnologia no momento – esses desenvolvimentos receberam um peso extra, já que as pessoas estão curiosas para saber se um deles pode ser um salto tão grande em relação ao ChatGPT quanto o ChatGPT foi em relação aos seus antecessores.

A simples verdade é que nenhum destes modelos será um grande passo, uma vez que o avanço da OpenAI foi construído sobre uma mudança fundamental na arquitectura de aprendizagem automática que todas as outras empresas adoptaram agora, e que não foi substituída. Melhorias incrementais, como um ou dois pontos a mais em um benchmark sintético, ou uma linguagem ou imagens um pouco mais convincentes, é tudo o que podemos esperar no momento.

Isso significa que nenhum desses modelos importa? Certamente eles fazem. Você não passa da versão 2.0 para a 3.0 sem 2.1, 2.2, 2.2.1 e assim por diante. E por vezes esses avanços são significativos, resolvem deficiências graves ou expõem vulnerabilidades inesperadas. Tentamos cobrir os mais interessantes, mas isso é apenas uma fração do número total. Na verdade, estamos trabalhando em uma peça que coleta todos os modelos que achamos que os curiosos por ML deveriam conhecer, e é da ordem de uma dúzia.

Não se preocupe: quando surgir um grande problema, você saberá, e não apenas porque o TechCrunch está cobrindo isso. Será tão óbvio para você quanto é para nós.

Fuente