Por que o RAG não resolverá o problema de alucinação da IA generativa

May 4, 2024

As alucinações – basicamente as mentiras que os modelos generativos de IA contam – são um grande problema para as empresas que buscam integrar a tecnologia em suas operações.

Como os modelos não têm inteligência real e estão simplesmente prevendo palavras, imagens, fala, música e outros dados de acordo com um esquema privado, por vezes erram. Muito errado. Em um artigo recente no The Wall Street Journal, um fonte relata um caso em que a IA generativa da Microsoft inventou os participantes da reunião e deu a entender que as teleconferências eram sobre assuntos que não foram realmente discutidos na teleconferência.

Como escrevi há pouco, as alucinações podem ser um problema insolúvel nas atuais arquiteturas de modelos baseados em transformadores. Mas vários fornecedores de IA generativa sugerem que eles pode ser eliminada, mais ou menos, por meio de uma abordagem técnica chamada geração aumentada de recuperação, ou RAG.

Veja como um fornecedor, Squirro, lança:

No centro da oferta está o conceito de Retrieval Augmented LLMs ou Retrieval Augmented Generation (RAG) incorporado na solução… [our generative AI] é único em sua promessa de zero alucinações. Cada informação gerada é rastreável até uma fonte, garantindo credibilidade.

Aqui está um tom semelhante do SiftHub:

Usando a tecnologia RAG e grandes modelos de linguagem ajustados com treinamento de conhecimento específico do setor, o SiftHub permite que as empresas gerem respostas personalizadas sem alucinações. Isto garante maior transparência e redução de riscos e inspira confiança absoluta para usar a IA para todas as suas necessidades.

O RAG foi iniciado pelo cientista de dados Patrick Lewis, pesquisador da Meta e da University College London e autor principal do 2020 papel que cunhou o termo. Aplicado a um modelo, o RAG recupera documentos possivelmente relevantes para uma questão – por exemplo, uma página da Wikipedia sobre o Super Bowl – usando o que é essencialmente uma pesquisa por palavra-chave e depois pede ao modelo para gerar respostas dado este contexto adicional.

“Quando você está interagindo com um modelo generativo de IA como ChatGPT ou Llama e faz uma pergunta, o padrão é que o modelo responda a partir de sua ‘memória paramétrica’ – ou seja, a partir do conhecimento armazenado em seus parâmetros como resultado de treinamento em dados massivos da web”, explicou David Wadden, cientista pesquisador da AI2, a divisão de pesquisa focada em IA do Instituto Allen, sem fins lucrativos. “Mas, assim como é provável que você dê respostas mais precisas se tiver uma referência [like a book or a file] na sua frente, o mesmo acontece em alguns casos com os modelos.”

O RAG é inegavelmente útil – permite atribuir coisas que um modelo gera a documentos recuperados para verificar sua factualidade (e, como um benefício adicional, evitar regurgitação potencialmente violadora de direitos autorais). O RAG também permite que empresas que não desejam que seus documentos sejam usados para treinar um modelo – por exemplo, empresas em setores altamente regulamentados, como saúde e direito – permitam que os modelos utilizem esses documentos de uma forma mais segura e temporária.

Mas RAG certamente não pode impedir que uma modelo tenha alucinações. E tem limitações que muitos fornecedores ignoram.

Wadden diz que o RAG é mais eficaz em cenários de “conhecimento intensivo”, onde um usuário deseja usar um modelo para atender a uma “necessidade de informação” – por exemplo, para descobrir quem ganhou o Super Bowl no ano passado. Nesses cenários, o documento que responde à pergunta provavelmente conterá muitas das mesmas palavras-chave da pergunta (por exemplo, “Super Bowl”, “ano passado”), tornando relativamente fácil encontrá-lo por meio de pesquisa por palavra-chave.

As coisas ficam mais complicadas com tarefas de “raciocínio intensivo”, como codificação e matemática, onde é mais difícil especificar em uma consulta de pesquisa baseada em palavras-chave os conceitos necessários para responder a uma solicitação – e muito menos identificar quais documentos podem ser relevantes.

Mesmo com perguntas básicas, os modelos podem se “distrair” com conteúdos irrelevantes nos documentos, especialmente em documentos longos onde a resposta não é óbvia. Ou podem – por razões ainda desconhecidas – simplesmente ignorar o conteúdo dos documentos recuperados, optando por confiar na sua memória paramétrica.

O RAG também é caro em termos do hardware necessário para aplicá-lo em grande escala.

Isso ocorre porque os documentos recuperados, seja da web, de um banco de dados interno ou de outro lugar, precisam ser armazenados na memória – pelo menos temporariamente – para que o modelo possa consultá-los. Outra despesa é calcular o contexto ampliado que um modelo deve processar antes de gerar sua resposta. Para uma tecnologia já conhecida pela quantidade de computação e eletricidade que requer até mesmo para operações básicas, isto constitui uma consideração séria.

Isso não quer dizer que o RAG não possa ser melhorado. Wadden observou muitos esforços contínuos para treinar modelos para fazer melhor uso dos documentos recuperados pelo RAG.

Alguns desses esforços envolvem modelos que podem “decidir” quando fazer uso dos documentos, ou modelos que podem optar por não realizar a recuperação em primeiro lugar, caso considerem desnecessário. Outros centram-se em formas de indexar de forma mais eficiente conjuntos de dados massivos de documentos e em melhorar a pesquisa através de melhores representações de documentos — representações que vão além de palavras-chave.

“Somos muito bons em recuperar documentos com base em palavras-chave, mas não tão bons em recuperar documentos com base em conceitos mais abstratos, como uma técnica de prova necessária para resolver um problema matemático”, disse Wadden. “É necessária pesquisa para construir representações de documentos e técnicas de busca que possam identificar documentos relevantes para tarefas de geração mais abstratas. Acho que esta é principalmente uma questão em aberto neste momento.”

Portanto, o RAG pode ajudar a reduzir as alucinações de um modelo – mas não é a resposta para todos os problemas alucinatórios da IA. Cuidado com qualquer fornecedor que tente alegar o contrário.

Fuente