Isto não é um teoria da conspiração ou profecia futura. A ideia de uma Internet dominada por conteúdos gerados por IA já está a acontecer e não parece boa.

Desde então Bate-papoGPT chegou ao mercado, o conteúdo gerado por IA tem se infiltrado constantemente na Internet. A inteligência artificial existe há décadas. Mas o ChatGPT voltado para o consumidor empurrou a IA para o mainstream, criando uma acessibilidade sem precedentes a modelos avançados de IA e uma demanda que as empresas estão ansiosas para capitalizar.

Como resultado, tanto as empresas como os utilizadores estão a aproveitar a IA generativa para produzir grandes volumes de conteúdo. Embora a preocupação inicial seja a abundância de conteúdo contendo imprecisões, jargões e desinformação, o efeito a longo prazo é a degradação completa do conteúdo da web em lixo inútil.

VEJA TAMBÉM:

As novas regras eleitorais da OpenAI já estão sendo postas à prova

Entra lixo, sai lixo

Se você está pensando, a internet já contém um monte de lixo inútil, isso é verdade, mas isso é diferente. “Há muito lixo por aí… mas tem uma quantidade absurda de variedade e diversidade”, disse Nader Henein, vice-presidente analista da empresa de consultoria de gestão Gartner. À medida que os LLMs se alimentam do conteúdo uns dos outros, a qualidade fica pior e mais vaga, como a fotocópia da fotocópia de uma imagem.

Pense desta forma: a primeira versão do ChatGPT foi o último modelo a ser treinado em conteúdo inteiramente gerado por humanos. Desde então, cada modelo contém dados de treinamento com conteúdo gerado por IA que é difícil de verificar ou mesmo rastrear. Isso se torna não confiável ou, para ser franco, lixo, dados. Quando isso acontece, “​​perdemos qualidade e precisão do conteúdo, e perdemos diversidade”, disse Henein, que pesquisa proteção de dados e inteligência artificial. “Tudo começa a parecer a mesma coisa.”

“Aprendizagem incestuosa” é como Henein a chama. “Os LLMs são apenas uma grande família, eles estão apenas consumindo o conteúdo uns dos outros e fazendo polinização cruzada, e a cada geração você tem… cada vez mais lixo, a ponto de o lixo ultrapassar o bom conteúdo e as coisas começarem a se deteriorar a partir daí.”

À medida que mais conteúdo gerado por IA é enviado para a web, e que o conteúdo é gerado por LLMs treinados em conteúdo gerado por IA, estamos olhando para uma web futura que será totalmente homogênea e totalmente não confiável. Além disso, é muito chato.

Colapso do modelo, colapso da internet

A maioria das pessoas já sinto algo está errado.

Em alguns dos exemplos mais conhecidos, a arte está sendo duplicada por robôs. Livros estão sendo engolidos inteiros e replicados por LLMs sem a permissão dos autores. Imagens e vídeos que utilizam vozes e imagens de celebridades são feitos sem o seu consentimento e compensação.

Mas as leis existentes sobre direitos de autor e propriedade intelectual já estão em vigor para proteger tais violações. Além disso, alguns estão adotando a colaboração de IA, como Grimes, que oferece acordos de divisão de receitas com criadores musicais de IA e gravadoras que estão explorando acordos de licenciamento com empresas de tecnologia de IA. Do lado político, os legisladores introduziram uma Lei sem falsificações para proteger figuras públicas de réplicas de IA. Os regulamentos para resolver todos estes problemas não estão em vigor, mas corrigi-los é pelo menos imaginável.

A queda na qualidade geral de tudo o que está online, no entanto, é um fenómeno mais insidioso, e os investigadores demonstraram porque é que está prestes a piorar.

Em um estudar da Universidade Johannes Gutenberg, na Alemanha, os investigadores descobriram que “este ciclo de formação autoconsumidor melhora inicialmente a qualidade e a diversidade”, o que se alinha com o que provavelmente acontecerá a seguir. “No entanto, depois de algumas gerações, o resultado degenera inevitavelmente em diversidade. Descobrimos que a taxa de degeneração depende da proporção de dados reais e gerados.”

Outros dois acadêmico papéis publicado em 2023 chegou à mesma conclusão sobre a degradação dos modelos de IA quando treinados em dados sintéticos, também conhecidos como dados gerados por IA. De acordo com um estudo realizado por pesquisadores de Oxford, Cambridge, Imperial College London, Universidade de Toronto e Universidade de Edimburgo, “o uso de conteúdo gerado por modelo no treinamento causa defeitos irreversíveis nos modelos resultantes, onde as caudas da distribuição do conteúdo original desaparecem, ” referindo-se a isso como “colapso do modelo”.

Da mesma forma, pesquisadores de Stanford e da Universidade Rice disseram, “sem dados reais novos e suficientes em cada geração de um autófago [self-consuming] loop, os futuros modelos generativos estão fadados a ter sua qualidade (precisão) ou diversidade (recall) diminuindo progressivamente.”

A falta de diversidade, explica Henein, é o problema fundamental, porque se os modelos de IA estão a tentar substituir a criatividade humana, está cada vez mais longe disso.

Visão geral da Internet gerada por IA

À medida que o colapso do modelo se aproxima, a Internet gerada pela IA já chegou.

Amazon tem um novo recurso que fornece Resumos de análises de produtos gerados por IA. Ferramentas do Google e da Microsoft usam IA para ajudar a redigir e-mails e documentos e o Even lançou um ferramenta em setembro, que permite aos recrutadores criar descrições de cargos geradas por IA. Plataformas como DALL-E 3 e Midjourney permitem que os usuários criem imagens geradas por IA e as compartilhem na web.

Quer eles produzam diretamente conteúdo gerado por IA, como a Amazon, ou forneçam um serviço para os usuários publicarem eles próprios conteúdo gerado por IA, como Google, Microsoft, Even, OpenAI e Midjourney, isso já está disponível.

E essas são apenas as ferramentas e recursos das grandes empresas de tecnologia que pretendem ter algum tipo de supervisão. Os verdadeiros perpetradores são sites de isca de cliques que produzem conteúdo regurgitado de baixa qualidade e alto volume para obter alta classificação e receita de SEO.

Um recente relatório da 404 Media, encontrou vários sites “que enganam outros meios de comunicação usando IA para produzir conteúdo rapidamente”. Para uma amostra desse tipo de conteúdo, que evita o plágio em detrimento da coerência, consulte site de notícias questionável Worldtimetodays.comonde a primeira linha de uma história de 2023 abordando a demissão de Gina Carano de Leituras de Guerra nas Estrelas“Já faz um tempo que Gina Carano começou um discurso inflamado contra a Lucasfilm depois que ele foi demitido guerra de estrelasentão, para o bem ou para o mal, estávamos devidos.”

Claramente, esta frase foi gerada por IA.
Crédito: Worldtimetodays.com

No Google Acadêmico, Usuários descobriu um esconderijo de artigos acadêmicos contendo a frase “como um modelo de linguagem de IA”, significando que partes de artigos – ou artigos inteiros, pelo que se sabe – foram escritos por chatbots como o ChatGPT. Artigos de pesquisa gerados por IA – que deveriam ter algum tipo de credibilidade acadêmica – podem chegar a sites de notícias e blogs como referências confiáveis.

Até mesmo as pesquisas do Google agora às vezes revelam imagens de celebridades geradas por IA, em vez de coisas como fotos da imprensa ou fotos de filmes. Quando você pesquisa no Google Israel Kamakawiwo’ole, o falecido músico conhecido por seu cover de ukulele de “Somewhere Over the Rainbow”, o resultado principal é uma previsão gerada por IA de como Kamakawiwo’ole seria se estivesse vivo hoje.

As pesquisas de imagens de Keira Knightley no Google resultam em renderizações distorcidas enviadas por usuários do OpenArt, Playground AI e Dopamine Girl ao lado de fotos reais da atriz

pesquisa de imagens no Google de Keira Knightley mostrando uma imagem da atriz gerada por IA

Keira não merece isso.
Crédito: Mashable

Isso sem falar no recente deepfakes pornográficos de Taylor Swift, um anúncio do Instagram usando a imagem de Tom Hanks para vender um plano odontológicoum aplicativo de edição de fotos usando o rosto e a voz de Scarlett Johansson sem o consentimento delae aquela música de fogo de Drake e The Weeknd que na verdade era uma música não autorizada áudio falso isso soou exatamente como eles.

Se os resultados do nosso mecanismo de pesquisa já não são confiáveis, e é quase certo que os modelos estão se alimentando desse lixo, ultrapassamos o limiar da era do lixo da IA ​​​​da web. No momento, a web como a conhecíamos ainda é um tanto reconhecível, mas os avisos não são mais abstratos.

A internet não está completamente condenada

Supondo que produtos como o ChatGPT não façam sucesso e comecem a gerar de forma confiável conteúdo vibrante e emocionante que os humanos realmente considerem prazeroso ou útil de consumir, o que acontece a seguir?

Espere que as comunidades e organizações reajam, protegendo o seu conteúdo dos modelos de IA que tentam apanhá-lo. A web aberta, apoiada por anúncios e baseada em pesquisas pode estar desaparecendo, mas a internet evoluirá. Espere que sites de mídia mais respeitáveis ​​coloquem seu conteúdo atrás de acesso pago e informações confiáveis ​​provenientes de boletins informativos para assinantes.

Espere ver mais batalhas de direitos autorais e licenciamento, como O jornal New York Times’ processo contra Microsoft e OpenAI. Espere ver mais ferramentas como Beladona, uma ferramenta invisível que protege imagens protegidas por direitos autorais, tentando corromper modelos treinados nelas. Espere o desenvolvimento de novas ferramentas sofisticadas de marca d’água e verificação que evitem a raspagem de IA.

Por outro lado, você também pode esperar outras publicações de notícias como Imprensa Associada – e possivelmente CNN, Fox e Tempo – adotar a IA generativa e elaborar acordos de licenciamento com empresas como a OpenAI.

Como ferramentas como ChatGPT e Google SGE se tornem substitutos da pesquisa tradicional, espere que os modelos de receita baseados em SEO mudem.

O lado positivo do colapso do modelo, contudo, é a perda de procura. A proliferação da IA ​​generativa é atualmente ditada pelo hype e, se os modelos treinados em conteúdos de baixa qualidade deixarem de ser úteis, a procura diminuirá. O que (espero) resta somos nós, humanos débeis, com o desejo insaciável de reclamar, compartilhar demais, informar e de outra forma nos expressar online.

Tópicos
Bate-papo de Inteligência ArtificialGPT



Fuente