O novo recurso da OpenAI pode ler texto e imitar vozes

March 29, 2024

A OpenAI decidiu contra uma implementação mais ampla do recurso, sobre a qual informou aos repórteres no início deste mês.

A OpenAI está compartilhando os primeiros resultados de um teste para um recurso que pode ler palavras em voz alta com uma voz humana convincente – destacando uma nova fronteira para a inteligência artificial e aumentando o espectro dos riscos de deepfake.

A empresa está compartilhando as primeiras demonstrações e casos de uso de uma prévia em pequena escala do modelo de conversão de texto em fala, chamado Voice Engine, que foi compartilhado com cerca de 10 desenvolvedores até agora, disse um porta-voz.

A OpenAI decidiu contra uma implementação mais ampla do recurso, sobre a qual informou aos repórteres no início deste mês.

Um porta-voz da OpenAI disse que a empresa decidiu reduzir o lançamento depois de receber feedback de partes interessadas, como legisladores, especialistas do setor, educadores e criativos. A empresa planejou inicialmente lançar a ferramenta para até 100 desenvolvedores por meio de um processo de inscrição, de acordo com a coletiva de imprensa anterior.

“Reconhecemos que gerar um discurso que se assemelhe às vozes das pessoas apresenta sérios riscos, que são especialmente importantes em um ano eleitoral”, escreveu a empresa em um blog na sexta-feira. “Estamos nos envolvendo com parceiros dos EUA e internacionais de todo o governo, mídia, entretenimento, educação, sociedade civil e outros para garantir que incorporamos seus comentários à medida que construímos.”

Outras tecnologias de IA já foram usadas para falsificar vozes em alguns contextos. Em janeiro, um telefonema falso, mas de aparência realista, supostamente do presidente Joe Biden, encorajou as pessoas em New Hampshire a não votarem nas primárias – um evento que alimentou receios sobre a IA antes de eleições globais críticas.

Ao contrário dos esforços anteriores da OpenAI para gerar conteúdo de áudio, o Voice Engine pode criar falas que soam como pessoas individuais, completas com sua cadência e entonações específicas. Tudo o que o software precisa são 15 segundos de áudio gravado de uma pessoa falando para recriar sua voz.

Durante uma demonstração da ferramenta, Bloomberg ouviu um clipe do CEO da OpenAI, Sam Altman, explicando brevemente a tecnologia em uma voz que parecia indistinguível de seu discurso real, mas foi inteiramente gerada por IA.

“Se você tiver a configuração de áudio correta, é basicamente uma voz de calibre humano”, disse Jeff Harris, líder de produto da OpenAI. “É uma qualidade técnica bastante impressionante.” No entanto, Harris disse: “Há obviamente muita delicadeza de segurança em torno da capacidade de imitar com precisão a fala humana”.

Um dos atuais parceiros desenvolvedores da OpenAI que usa a ferramenta, o Norman Prince Neurosciences Institute do sistema de saúde sem fins lucrativos Lifespan, está usando a tecnologia para ajudar os pacientes a recuperar a voz. Por exemplo, a ferramenta foi usada para restaurar a voz de uma jovem paciente que perdeu a capacidade de falar claramente devido a um tumor cerebral, replicando sua fala de uma gravação anterior para um projeto escolar, disse o blog da empresa.

O modelo de fala personalizado da OpenAI também pode traduzir o áudio gerado para diferentes idiomas. Isso o torna útil para empresas do ramo de áudio, como a Spotify Technology SA. O Spotify já usou a tecnologia em seu próprio programa piloto para traduzir podcasts de apresentadores populares como Lex Fridman. A OpenAI também elogiou outras aplicações benéficas da tecnologia, como a criação de uma gama mais ampla de vozes para conteúdo educacional para crianças.

No programa de testes, a OpenAI exige que seus parceiros concordem com suas políticas de uso, obtenham o consentimento do locutor original antes de usar sua voz e divulguem aos ouvintes que as vozes que estão ouvindo são geradas por IA. A empresa também está instalando uma marca d’água de áudio inaudível para permitir distinguir se um trecho de áudio foi criado por sua ferramenta.

Antes de decidir se lançará o recurso de forma mais ampla, a OpenAI disse que está solicitando feedback de especialistas externos. “É importante que as pessoas ao redor do mundo entendam para onde esta tecnologia está indo, quer nós mesmos a implementemos amplamente ou não”, disse a empresa no blog.

A OpenAI também escreveu que espera que a pré-visualização do seu software “motive a necessidade de reforçar a resiliência social” contra os desafios trazidos pelas tecnologias de IA mais avançadas. Por exemplo, a empresa apelou aos bancos para eliminarem gradualmente a autenticação de voz como medida de segurança para aceder a contas bancárias e informações sensíveis. Também busca educação pública sobre conteúdo enganoso de IA e maior desenvolvimento de técnicas para detectar se o conteúdo de áudio é real ou gerado por IA.

(Exceto a manchete, esta história não foi editada pela equipe da NDTV e é publicada a partir de um feed distribuído.)

Esperando por resposta para carregar…

Fuente