Snowflake lança seu próprio modelo generativo de IA

April 24, 2024

Modelos de IA generativos versáteis e altamente generalizáveis já foram o nome do jogo, e provavelmente ainda são. Mas cada vez mais, à medida que grandes e pequenos fornecedores de nuvem se juntam à briga da IA generativa, vemos uma nova safra de modelos focados nos clientes potenciais com mais recursos: as empresas.

Caso em questão: Snowflake, a empresa de computação em nuvem, revelou hoje o Arctic LLM, um modelo generativo de IA descrito como “de nível empresarial”. Disponível sob uma licença Apache 2.0, o Arctic LLM é otimizado para “cargas de trabalho corporativas”, incluindo a geração de código de banco de dados, diz Snowflake, e é gratuito para pesquisa e uso comercial.

“Acho que esta será a base que permitirá que nós – Snowflake – e nossos clientes construam produtos de nível empresarial e realmente comecem a perceber a promessa e o valor da IA”, disse o CEO Sridhar Ramaswamy em coletiva de imprensa. “Você deve pensar nisso como nosso primeiro, mas grande, passo no mundo da IA generativa, com muito mais por vir.”

Um modelo empresarial

Meu colega Devin Coldewey escreveu recentemente sobre como não há fim à vista para o ataque de modelos generativos de IA. Recomendo que você leia o artigo dele, mas a essência é: os modelos são uma maneira fácil para os fornecedores despertarem entusiasmo por sua pesquisa e desenvolvimento e também servem como um funil para seus ecossistemas de produtos (por exemplo, hospedagem de modelos, ajuste fino e assim por diante) .

O LLM do Ártico não é diferente. O modelo principal da Snowflake em um família de modelos generativos de IA chamada Árticoo Arctic LLM – que levou cerca de três meses, 1.000 GPUs e US$ 2 milhões para treinar – chega logo após o DBRX da Databricks, um modelo generativo de IA também comercializado como otimizado para o espaço corporativo.

Snowflake faz uma comparação direta entre Arctic LLM e DBRX em seus materiais de imprensa, dizendo que Arctic LLM supera DBRX nas duas tarefas de codificação (Snowflake não especificou quais linguagens de programação) e SQL geração. A empresa disse que o Arctic LLM também é melhor nessas tarefas do que o Llama 2 70B da Meta (mas não o mais recente Llama 3 70B) e o Mixtral-8x7B da Mistral.

Snowflake também afirma que o Arctic LLM alcança “desempenho líder” em um benchmark popular de compreensão geral de linguagem, MMLU. Observo, porém, que embora MMLU pretende avaliar a capacidade dos modelos generativos de raciocinar por meio de problemas lógicos, inclui testes que podem ser resolvidos por meio de memorização mecânica, portanto, considere esse ponto com cautela.

“O Arctic LLM atende a necessidades específicas do setor empresarial”, disse Baris Gultekin, chefe de IA da Snowflake, ao TechCrunch em uma entrevista, “divergindo de aplicações genéricas de IA, como a composição de poesia, para se concentrar em desafios orientados para a empresa, como o desenvolvimento de SQL co- pilotos e chatbots de alta qualidade.”

O Arctic LLM, como o DBRX e o modelo generativo de melhor desempenho do momento do Google, Gemini 1.5 Pro, é uma mistura de arquitetura de especialistas (MoE). As arquiteturas do MoE basicamente dividem as tarefas de processamento de dados em subtarefas e depois as delegam a modelos “especializados” menores e especializados. Assim, embora o Arctic LLM contenha 480 mil milhões de parâmetros, apenas ativa 17 mil milhões de cada vez – o suficiente para impulsionar os 128 modelos especializados separados. (Os parâmetros definem essencialmente a habilidade de um modelo de IA em um problema, como analisar e gerar texto.)

Snowflake afirma que esse design eficiente permitiu treinar o Arctic LLM em conjuntos de dados públicos abertos da web (incluindo RefinadoWeb, C4, Pijama Vermelho e StarCoder) por “cerca de um oitavo do custo de modelos semelhantes”.

Correndo por toda parte

Snowflake está fornecendo recursos como modelos de codificação e uma lista de fontes de treinamento junto com o Arctic LLM para orientar os usuários durante o processo de instalação e execução do modelo e ajuste-o para casos de uso específicos. Mas, reconhecendo que esses provavelmente serão empreendimentos caros e complexos para a maioria dos desenvolvedores (o ajuste fino ou a execução do Arctic LLM requer cerca de oito GPUs), a Snowflake também se compromete a disponibilizar o Arctic LLM em uma variedade de hosts, incluindo Hugging Face, Microsoft Azure , Serviço de hospedagem de modelo da Together AI e plataforma de IA generativa empresarial Lamini.

Mas aqui está o problema: o Arctic LLM estará disponível primeiro no Cortex, a plataforma da Snowflake para a criação de aplicativos e serviços baseados em IA e aprendizado de máquina. Não é de surpreender que a empresa o apresente como a forma preferida de administrar o Arctic LLM com “segurança”, “governança” e escalabilidade.

“Nosso sonho aqui é, dentro de um ano, ter uma API que nossos clientes possam usar para que os usuários empresariais possam se comunicar diretamente com os dados”, disse Ramaswamy. “Teria Foi fácil para nós dizer: ‘Ah, vamos apenas esperar por algum modelo de código aberto e vamos usá-lo. Em vez disso, estamos fazendo um investimento fundamental porque pensamos [it’s] vamos desbloquear mais valor para nossos clientes.”

Então, fico me perguntando: para quem o Arctic LLM realmente se destina, além dos clientes Snowflake?

Num cenário repleto de modelos geradores “abertos” que podem ser ajustados para praticamente qualquer finalidade, o Arctic LLM não se destaca de forma óbvia. Sua arquitetura pode trazer ganhos de eficiência em relação a algumas das outras opções disponíveis. Mas não estou convencido de que serão suficientemente dramáticos para afastar as empresas dos inúmeros outros modelos generativos bem conhecidos e apoiados pelos negócios (por exemplo, GPT-4).

Há também um ponto de desfavor do Arctic LLM a considerar: seu contexto relativamente pequeno.

Na IA generativa, a janela de contexto refere-se aos dados de entrada (por exemplo, texto) que um modelo considera antes de gerar a saída (por exemplo, mais texto). Modelos com janelas de contexto pequenas tendem a esquecer o conteúdo até mesmo de conversas muito recentes, enquanto modelos com contextos maiores normalmente evitam essa armadilha.

O contexto do Arctic LLM está entre ~8.000 e ~24.000 palavras, dependendo do método de ajuste fino – muito abaixo de modelos como Claude 3 Opus da Anthropic e Gemini 1.5 Pro do Google.

Snowflake não menciona isso no marketing, mas o Arctic LLM quase certamente sofre das mesmas limitações e deficiências que outros modelos generativos de IA – ou seja, alucinações (ou seja, responder incorretamente a solicitações com confiança). Isso ocorre porque o Arctic LLM, juntamente com todos os outros modelos generativos de IA existentes, é uma máquina de probabilidade estatística – que, novamente, possui uma pequena janela de contexto. Ele adivinha, com base em uma grande quantidade de exemplos, quais dados fazem mais “sentido” para colocar onde (por exemplo, a palavra “ir” antes de “o mercado” na frase “Eu vou ao mercado”). Inevitavelmente, ele adivinhará errado – e isso é uma “alucinação”.

Como Devin escreve em seu artigo, até o próximo grande avanço técnico, melhorias incrementais são tudo o que temos que esperar no domínio da IA generativa. Isso não impedirá que fornecedores como a Snowflake os defendam como grandes conquistas e os comercializem por todo o seu valor.

Fuente