OpenAI inicia liberação de IA capaz de clonar vozes com apenas 15 segundos de amostra


Imagem: GettyImages

A OpenAI, empresa por trás do ChatGPT, deu início à liberação restrita de uma nova plataforma revolucionária denominada Voice Engine. Essa inovação permite a geração de vozes sintéticas baseadas em áudios de indivíduos com apenas 15 segundos de amostra.

Segundo a OpenAI, o Voice Engine é capaz de reproduzir não apenas o tom de voz, mas também a cadência de fala da pessoa analisada, mesmo com amostras curtas. No entanto, áudios mais extensos resultam em conteúdos ainda mais precisos e completos.

Essa tecnologia, em desenvolvimento desde 2022, já estava parcialmente presente nas APIs da OpenAI que convertem texto em áudio. Contudo, somente agora a empresa compartilhou resultados práticos com o público, disponibilizando amostras dos áudios gerados em seu blog.

O Voice Engine foi inicialmente treinado para ler textos escritos em um determinado idioma, mas também possui a capacidade de traduzir frases para outras línguas, preservando até mesmo o sotaque original.

A proposta é que o Voice Engine seja utilizado principalmente por empresas de informação e educação, visando democratizar o acesso a conteúdos para um público mais amplo. Em testes realizados com parceiros desenvolvedores, a OpenAI criou um assistente de leitura para auxiliar crianças em fase de aprendizado, fornecendo respostas em tempo real sobre diversas matérias.

Além disso, indivíduos com dificuldades na fala podem se beneficiar da plataforma para se comunicar de forma mais eficaz por meio de vozes sintéticas.

Apesar dos benefícios evidentes, a OpenAI reconhece os riscos associados à liberação dessa tecnologia e implementará medidas cautelares. A empresa irá colaborar com organizações dos EUA e internacionais para discutir o uso responsável da IA, estabelecendo regras como a proibição da replicação de vozes sem autorização e a necessidade de informar quando uma fala foi gerada artificialmente.