A OpenAI, conhecida por seus avanços inovadores na tecnologia de IA com criações como Sora, seu gerador de vídeo, lançou agora o ‘Voice Engine’, uma ferramenta pioneira de clonagem de voz. Este notável modelo de áudio pode replicar com precisão as nuances da fala humana, incluindo entonação e padrões de fala únicos, utilizando apenas uma breve amostra de 15 segundos da voz original. Apesar da grande expectativa, a OpenAI optou por manter esse novo recurso em segredo, citando preocupações sobre o potencial uso indevido e a proliferação de conteúdo falso online.

Eficiência e precisão notáveis

“Incrivelmente, nosso Voice Engine pode criar vozes emotivas e realistas usando apenas uma amostra de 15 segundos”, afirmou a empresa em um recente postagem no blog.

Leia também: Microsoft e OpenAI lançarão projeto de data center de IA de US$ 100 bilhões com supercomputador ‘Stargate’

Motor de voz da OpenAI versus padrões da indústria

Em contraste, as plataformas de voz de IA existentes, como OnzeLabs normalmente exigem amostras mais longas, com sua ferramenta de clonagem instantânea de voz necessitando de pelo menos um minuto de áudio para operação. Para melhores resultados, recomenda-se aproximadamente 10 minutos de fala contínua, especialmente para serviços de nível profissional.

A OpenAI apresentou os recursos do Voice Engine por meio de várias demonstrações, incluindo um exemplo comovente em que a voz de uma jovem paciente, que havia perdido grande parte de sua capacidade de falar devido a um tumor cerebral, foi replicada usando uma gravação mais antiga de um projeto escolar. A tecnologia permitiu que ela se comunicasse usando sua própria voz, um feito possível graças à colaboração com a Lifespan, uma organização sem fins lucrativos associada à faculdade de medicina da Universidade Brown.

Leia também: iOS 18 na WWDC 2024: recursos, atualizações de IA, data de lançamento, dispositivos suportados e muito mais

Além disso, a OpenAI revelou parcerias com organizações como Ei, Gen.demonstrando como o Voice Engine facilita traduções naturais da fala de um idioma para outro.

Leia também: A Apple poderá em breve oferecer ‘mapas topográficos’ no iPhone, Macbook: o que é e todos os detalhes

De acordo com a OpenAI, o Voice Engine foi inicialmente desenvolvido no final de 2022 e já está integrado às vozes predefinidas disponíveis na API de conversão de texto em fala da OpenAI, bem como ao recurso Voice and Read Aloud do ChatGPT. Com esses avanços mais recentes, a empresa está agindo com cautela antes de um lançamento mais amplo.

Fuente