OpenAI revelou uma nova ferramenta que recria a voz de uma pessoa com apenas 15 segundos de áudio gravado.
Chamado de Voice Engine, o modelo grava um único clipe de 15 segundos para aprender a voz da pessoa e como ela fala. A partir daí, os usuários podem inserir texto para que ele diga o que quiserem com vozes realistas que incluem emoção. A empresa disse que desenvolveu o Voice Engine em 2022 e o usou em vozes predefinidas, mas esta é a primeira vez que se discute a utilização da voz real de uma pessoa. A OpenAI também reconheceu em uma postagem no blog na sexta-feira (29 de março) as implicações óbvias e potencialmente maliciosas.
“Estamos adotando uma abordagem cautelosa e informada para um lançamento mais amplo devido ao potencial de uso indevido de voz sintética”, escreveu OpenAI em um blog. “Esperamos iniciar um diálogo sobre a utilização responsável de vozes sintéticas e como a sociedade pode adaptar-se a estas novas capacidades.”
A OpenAI acrescentou que, com base no andamento dessas conversas, ela decidirá como – ou mesmo se – lançará o Voice Engine ao público.
A empresa escreveu: “Tomaremos uma decisão mais informada sobre se e como implantar esta tecnologia em escala”.
As implicações do Voice Engine são enormes. Embora possa ser usado de várias maneiras notáveis, como gravar apresentações rapidamente ou comunicar-se de forma mais eficaz, não é difícil capturar a voz de outra pessoa e usá-la para fins nefastos. Na verdade, muitos desses tipos de golpes já existem e estão sendo usados para induzir as pessoas a enviar dinheiro e compartilhar informações com golpistas.
Estamos compartilhando nossos aprendizados com uma prévia em pequena escala do Voice Engine, um modelo que usa entrada de texto e uma única amostra de áudio de 15 segundos para gerar uma fala com som natural que se assemelha ao locutor original. https://t.co/yLsfGaVtrZ29 de março de 2024
A OpenAI argumenta que é com esse risco que obter feedback é tão importante. A empresa disse que está se envolvendo com governos, empresas de mídia, empresas de entretenimento e instituições educacionais nos EUA e internacionalmente para discutir o Voice Engine. Essas partes estão agora testando o Voice Engine e concordaram em não se passar por outras pessoas. Eles também devem divulgar a qualquer pessoa que esteja ouvindo o áudio que a voz é gerada por IA. OpenAI também adicionou marca d’água, para que os ouvintes saibam que a voz não é autêntica.
“Acreditamos que qualquer implantação ampla de tecnologia de voz sintética deve ser acompanhada por experiências de autenticação de voz que verifiquem se o locutor original está adicionando conscientemente sua voz ao serviço e uma lista de vozes proibidas que detecta e impede a criação de vozes que são muito semelhantes a figuras proeminentes”, disse a empresa.
Olhando para o futuro, não se sabe o que virá do Voice Engine. Embora seja possível que eventualmente se torne público, a OpenAI também pode determinar que não é do interesse do público. De qualquer forma, disse a empresa, é claramente possível desenvolver, e está claramente aqui. “É importante que as pessoas em todo o mundo entendam para onde esta tecnologia está indo”, disse a empresa, “se nós mesmos a implantarmos amplamente ou não”.