Home Notícias Os meios de comunicação estão acusando a Perplexity de plágio e extração...

Os meios de comunicação estão acusando a Perplexity de plágio e extração antiética da web

27
0

Na era da IA ​​generativa, quando os chatbots podem fornecer respostas detalhadas a perguntas com base em conteúdo extraído da internet, a linha entre uso justo e plágio, e entre extração rotineira de dados na web e resumos antiéticos, é tênue.

Perplexity AI é uma startup que combina um mecanismo de busca com um grande modelo de linguagem que gera respostas com respostas detalhadas, em vez de apenas links. Ao contrário do ChatGPT da OpenAI e do Claude da Anthropic, a Perplexity não treina seus próprios modelos de IA fundamentais, em vez disso, usa modelos abertos ou disponíveis comercialmente para pegar as informações que coleta da internet e traduzi-las em respostas.

Mas uma série de acusações em junho sugere que a abordagem da startup beira a antiética. A Forbes chamou a Perplexity de plagiar supostamente um de seus artigos de notícias no recurso beta Perplexity Pages da startup. E A Wired acusou a Perplexity de roubar ilicitamente seu site, juntamente com outros sites.

A Perplexity, que em abril estava trabalhando para levantar US$ 250 milhões em uma avaliação de quase US$ 3 bilhões, afirma que não fez nada de errado. A empresa apoiada pela Nvidia e Jeff Bezos diz que honrou os pedidos dos editores para não raspar conteúdo e que está operando dentro dos limites das leis de direitos autorais de uso justo.

A situação é complicada. No cerne dela estão nuances envolvendo dois conceitos. O primeiro é o Robots Exclusion Protocol, um padrão usado por sites para indicar que eles não querem que seu conteúdo seja acessado ou usado por rastreadores da web. O segundo é o uso justo na lei de direitos autorais, que estabelece a estrutura legal para permitir o uso de material protegido por direitos autorais sem permissão ou pagamento em certas circunstâncias.

Raspagem furtiva de conteúdo da web

Créditos da imagem: Imagens Getty

A matéria da Wired de 19 de junho alega que a Perplexity ignorou o Robots Exclusion Protocol para roubar secretamente áreas de sites que os publicadores não querem que os bots acessem. A Wired relatou que observou uma máquina vinculada à Perplexity fazendo isso em seu próprio site de notícias, bem como em outras publicações sob sua empresa controladora, a Condé Nast.

O relatório observou que o desenvolvedor Robb Knight conduziu um experimento semelhante e chegou à mesma conclusão.

Tanto os repórteres da Wired quanto Knight testaram suas suspeitas pedindo à Perplexity para resumir uma série de URLs e então observando no lado do servidor como um endereço IP associado à Perplexity visitava esses sites. A Perplexity então “resumiu” o texto dessas URLs — embora no caso de um site fictício com conteúdo limitado que a Wired criou para esse propósito, ele retornou o texto da página na íntegra.

É aqui que as nuances do Protocolo de Exclusão de Robôs entram em jogo.

A raspagem da Web é tecnicamente quando peças automatizadas de software conhecidas como crawlers vasculham a web para indexar e coletar informações de sites. Mecanismos de busca como o Google fazem isso para que páginas da web possam ser incluídas nos resultados de busca. Outras empresas e pesquisadores usam crawlers para coletar dados da internet para análise de mercado, pesquisa acadêmica e, como aprendemos, treinamento de modelos de machine learning.

Os web scrapers em conformidade com este protocolo primeiro procurarão o arquivo “robots.txt” no código-fonte de um site para ver o que é permitido e o que não é — hoje, o que não é permitido é geralmente fazer scraping no site de um editor para construir conjuntos de dados de treinamento massivos para IA. Mecanismos de busca e empresas de IA, incluindo a Perplexity, declararam que cumprem o protocolo, mas não são legalmente obrigados a fazê-lo.

O chefe de negócios da Perplexity, Dmitry Shevelenko, disse ao TechCrunch que resumir uma URL não é a mesma coisa que rastrear. “Rastrear é quando você está apenas sugando informações e adicionando-as ao seu índice”, disse Shevelenko. Ele observou que o IP da Perplexity pode aparecer como um visitante de um site que é “de outra forma proibido de robots.txt” apenas quando um usuário coloca uma URL em sua consulta, o que “não atende à definição de rastreamento”.

“Estamos apenas respondendo a uma solicitação direta e específica do usuário para acessar essa URL”, disse Shevelenko.

Em outras palavras, se um usuário fornece manualmente uma URL para uma IA, a Perplexity diz que sua IA não está agindo como um rastreador da web, mas sim como uma ferramenta para auxiliar o usuário a recuperar e processar as informações solicitadas.

Mas para a Wired e muitas outras editoras, essa é uma distinção sem diferença, porque visitar uma URL e extrair informações dela para resumir o texto certamente parece muito com scraping, se for feito milhares de vezes por dia.

(A Wired também informou que a Amazon Web Services, uma das provedoras de serviços em nuvem da Perplexity, está investigando a inicialização por ignorar o protocolo robots.txt para raspar páginas da web que os usuários citaram em seu prompt. A AWS disse ao TechCrunch que o relatório da Wired é impreciso e que informou ao veículo que estava processando sua investigação de mídia como faz com qualquer outro relatório alegando abuso do serviço.)

Plágio ou uso justo?

captura de tela de Perplexity Pages
A Forbes acusou a Perplexity de plagiar sua reportagem sobre o ex-CEO do Google, Eric Schmidt, que estava desenvolvendo drones de combate com inteligência artificial.
Créditos da imagem: Perplexidade / Captura de tela

A Wired e a Forbes também acusaram a Perplexity de plágio. Ironicamente, a Wired diz Perplexidade plagiou o próprio artigo que denunciou a startup por roubar secretamente seu conteúdo da web.

Os repórteres da Wired disseram que o chatbot Perplexity “produziu um texto de seis parágrafos, Texto de 287 palavras resumindo de perto as conclusões da história e as evidências usadas para chegar a elas.” Uma frase reproduz exatamente uma frase da história original; a Wired diz que isso constitui plágio. Diretrizes do Instituto Poynter dizem que pode ser plágio se o autor (ou IA) usar sete palavras consecutivas da obra original.

A Forbes também acusou a Perplexity de plágio. O site de notícias publicou uma relatório investigativo no início de junho sobre como o novo empreendimento do CEO do Google, Eric Schmidt, está recrutando pesadamente e testando drones com tecnologia de IA com aplicações militares. No dia seguinte, o editor da Forbes, John Paczkowski postado em X dizendo que a Perplexidade tinha republicou o furo como parte de seu recurso beta, Perplexity Pages.

Páginas de Perplexidadeque está disponível apenas para certos assinantes do Perplexity por enquanto, é uma nova ferramenta que promete ajudar os usuários a transformar pesquisas em “conteúdo visualmente impressionante e abrangente”, de acordo com o Perplexity. Exemplos desse tipo de conteúdo no site vêm dos funcionários da startup e incluem artigos como “Um guia para iniciantes em bateria” ou “Steve Jobs: CEO visionário”.

“Ele rouba a maioria das nossas reportagens”, escreveu Paczkowski. “Ele nos cita, e alguns que nos reblogaram, como fontes da maneira mais facilmente ignorada possível.”

A Forbes relatou que muitas das postagens que foram selecionadas pela equipe da Perplexity são “impressionantemente semelhantes a histórias originais de várias publicações, incluindo Forbes, CNBC e Bloomberg”. A Forbes disse que as postagens reuniram dezenas de milhares de visualizações e não mencionaram nenhuma das publicações pelo nome no texto do artigo. Em vez disso, os artigos da Perplexity incluíam atribuições na forma de “logotipos pequenos e fáceis de perder que os vinculam”.

Além disso, a Forbes disse que o post sobre Schmidt contém “palavras quase idênticas” ao furo da Forbes. A agregação também incluiu uma imagem criada pela equipe de design da Forbes que pareceu ter sido levemente modificada pela Perplexity.

O CEO da Perplexity, Aravind Srinivas, respondeu à Forbes na época dizendo que a startup citaria fontes com mais destaque no futuro — uma solução que não é infalível, já que as próprias citações enfrentam dificuldades técnicas. ChatGPT e outros modelos têm links alucinadose como a Perplexity usa modelos OpenAI, é provável que ela seja suscetível a tais alucinações. De fato, a Wired relatou que observou a Perplexity alucinando histórias inteiras.

Além de observar as “arestas” do Perplexity, Srinivas e a empresa reforçaram amplamente o direito do Perplexity de usar tal conteúdo para resumos.

É aqui que as nuances do uso justo entram em jogo. O plágio, embora mal visto, não é tecnicamente ilegal.

De acordo com Escritório de direitos autorais dos EUAé legal usar partes limitadas de uma obra, incluindo citações, para propósitos como comentários, críticas, reportagens jornalísticas e relatórios acadêmicos. Empresas de IA como a Perplexity postulam que fornecer um resumo de um artigo está dentro dos limites do uso justo.

“Ninguém tem o monopólio dos fatos”, disse Shevelenko. “Uma vez que os fatos são expostos, eles são para todos usarem.”

Shevelenko comparou os resumos do Perplexity à forma como os jornalistas costumam usar informações de outras fontes de notícias para reforçar suas próprias reportagens.

Mark McKenna, professor de direito no Instituto de Tecnologia, Direito e Política da UCLA, disse ao TechCrunch que a situação não é fácil de desembaraçar. Em um caso de uso justo, os tribunais avaliariam se o resumo usa muito da expressão do artigo original, em vez de apenas as ideias. Eles também podem examinar se a leitura do resumo pode ser um substituto para a leitura do artigo.

“Não há linhas brilhantes”, disse McKenna. “Então [Perplexity] dizer factualmente o que um artigo diz ou o que ele relata seria usar aspectos não protegidos por direitos autorais do trabalho. Isso seria apenas fatos e ideias. Mas quanto mais o resumo inclui expressão e texto reais, mais isso começa a parecer uma reprodução, em vez de apenas um resumo.”

Infelizmente para os editores, a menos que o Perplexity esteja usando expressões completas (e aparentemente, em alguns casos, ele está), seus resumos podem não ser considerados uma violação do uso justo.

Como a Perplexidade pretende se proteger

Empresas de IA como a OpenAI assinaram acordos de mídia com uma série de editores de notícias para acessar seu conteúdo atual e arquivado no qual treinar seus algoritmos. Em troca, a OpenAI promete expor artigos de notícias desses editores em resposta a consultas de usuários no ChatGPT. (Mas mesmo isso tem alguns problemas que precisam ser resolvidoscomo o Nieman Lab relatou na semana passada.)

A Perplexity se conteve em anunciar sua própria série de acordos de mídia, talvez esperando que as acusações contra ela passassem. Mas a empresa está “a todo vapor” em uma série de acordos de compartilhamento de receita de publicidade com editoras.

A ideia é que a Perplexity comece a incluir anúncios junto com as respostas de consulta, e os editores que tiverem conteúdo citado em qualquer resposta receberão uma fatia da receita de anúncios correspondente. Shevelenko disse que a Perplexity também está trabalhando para permitir que os editores acessem sua tecnologia para que possam criar experiências de perguntas e respostas e potencializar coisas como perguntas relacionadas nativamente dentro de seus sites e produtos.

Mas isso é apenas uma folha de parreira para roubo sistêmico de IP? Perplexity não é o único chatbot que ameaça resumir o conteúdo tão completamente que os leitores não conseguem ver a necessidade de clicar para o material de origem original.

E se scrapers de IA como esse continuarem a pegar o trabalho dos editores e reutilizá-lo para seus próprios negócios, os editores terão mais dificuldade para ganhar dinheiro com anúncios. Isso significa que, eventualmente, haverá menos conteúdo para scraping. Quando não houver mais conteúdo para scraping, os sistemas de IA generativa irão então girar para o treinamento em dados sintéticos, o que pode levar a um ciclo de feedback infernal de conteúdo potencialmente tendencioso e impreciso.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here