A Microsoft lançou o Phi-3 Mini, uma nova versão de seu modelo leve de IA projetado para tarefas específicas.

De acordo com o artigo de pesquisa Publicados no início desta semana, o Phi-3 Mini tem 3,8 bilhões de parâmetros, o que é significativamente menor do que outros modelos como o GPT-4 da OpenAI, tornando-o pequeno o suficiente para ser implantado em um smartphone. OpenAI não compartilhou quantos parâmetros o GPT-4 possui, mas acredita-se que tenha mais de um trilhão de parâmetros por semáforo.

VEJA TAMBÉM:

ChatGPT Plus pode explorar vulnerabilidades de segurança de dia zero – por que isso deveria preocupar você

Os modelos tradicionais de IA exigem enormes quantidades de poder computacional, que é muito caro e tem um enorme pegada de carbono. Empresas como a Microsoft e o Google têm trabalhado em modelos menores e leves que lidam com tarefas comuns, o que tornaria a hospedagem de seus modelos mais sustentável – no sentido operacional – e mais adequada para smartphones, que é onde a indústria está fortemente inclinada. A Samsung está apostando tudo na IA generativa com uma coleção de recursos para seus dispositivos Galaxy, o Google também está adicionando recursos de IA generativa à sua linha Pixel, e até mesmo a Apple deve fazer alguns grandes anúncios de IA para o iOS 18.

Os parâmetros estão relacionados à forma como os modelos são capazes de lidar com a complexidade; portanto, quanto mais parâmetros, mais capaz será o modelo de lidar com solicitações vastas e diferenciadas. Mas para tarefas diárias que o usuário médio precisaria de um modelo de IA, como traduzir, ajudar a redigir um e-mail ou procurar restaurantes locais, presume-se que um modelo menor e leve seja suficiente.

Velocidade da luz mashável

Phi-3 Mini teve pontuação semelhante em relação ao modelo de código aberto Llama 3 da Meta e ao GPT-3.5 da OpenAI em benchmarks comuns, com algumas exceções. Ele superou o Llama 3 e obteve pontuação logo abaixo do GPT 3,5 em compreensão de linguagem natural (MMLU) e raciocínio de senso comum (HellaSwag) e venceu ambos os modelos em raciocínio aritmético (GSM8K). Como observa o artigo, obteve pontuação mais baixa em curiosidades e “conhecimento factual”, mas os pesquisadores acreditam que “essa fraqueza pode ser resolvida pelo aumento com um mecanismo de busca”, ou seja, uma vez que o modelo esteja conectado à Internet, isso não será tão difícil. emitir.

Os pesquisadores treinaram o Phi-3 Mini em uma combinação de “dados da web altamente filtrados” que atendem aos padrões de informações educacionais de alta qualidade, bem como dados sintéticos, que desafiam a ideia de que extrair tudo da web é a melhor maneira de treinar um modelo. A modelo também foi treinada em… histórias para dormir, de acordo com AI diário, o que na verdade faz muito sentido para a compreensão de como o cérebro humano funciona. A ideia é optar pela qualidade em vez da quantidade com dados selecionados para que possam ser executados com menos parâmetros e, ao mesmo tempo, manter sua potência.

Phi-3 Mini agora está disponível em HuggingFace, Azure e Ollama.

Tópicos
Inteligência ArtificialMicrosoft



Fuente