A NOVA INTELIGÊNCIA ARTIFICIAL DE CONVERSÃO DE TEXTO EM FALA DO GOOGLE É TÃO BOA QUE APOSTAMOS QUE VOCÊ NÃO CONSEGUE DISTINGUIR ISSO DE UM SER HUMANO REAL

Você pode dizer a diferença entre a fala de computador gerada por IA e um ser humano real e vivo? Talvez você sempre tenha pensado que poderia. Talvez você goste de Alexa e Siri, mas acredita que nunca confundiria qualquer uma delas com uma mulher real.

As coisas estão prestes a ficar muito mais interessantes. Os engenheiros do Google têm trabalhado arduamente na criação de um sistema de conversão de texto em voz chamado Tacotron 2 . De acordo com um papel eles publicaram este mês, o sistema primeiro cria um espectrograma do texto, uma representação visual de como a fala deve soar. Essa imagem é colocada por meio do algoritmo WaveNet existente do Google, que usa a imagem para produzir uma fala humana com som extremamente natural.

Usando esse método, os pesquisadores relatam: 'Nosso modelo atinge uma pontuação média de opinião (MOS) de 4,53 comparável a uma MOS de 4,58 para fala gravada profissionalmente.' (Uma pontuação média de opinião é um termo de telecomunicações que mede o quão real algo soa.)

Como os exemplos de áudio do Google demonstram, o Tacotron 2 pode detectar a partir do contexto a diferença entre o substantivo 'deserto' e o verbo 'deserto', bem como o substantivo 'presente' e o verbo 'presente', e alterar sua pronúncia de acordo. Ele pode enfatizar palavras em maiúsculas e aplicar a inflexão adequada ao fazer uma pergunta, em vez de fazer uma afirmação.

E pode gerar texto que soa tão semelhante à fala humana que é difícil ou impossível saber a diferença. Se você quiser ver como é difícil, vá para a página do Google página de amostras de áudio e role para baixo até o último conjunto de amostras, intitulado 'Tacotron 2 or Human?' Lá você encontrará o Tacotron 2 e uma pessoa real, cada um dizendo frases como, 'Aquela garota fez um vídeo sobre batom Star Wars.'

ALERTA DE SPOILER: Para testar a si mesmo, ouça as amostras e adivinhe qual é qual antes de ler o resto desta coluna.

Então, quais amostras são text-to-speech e quais são uma voz humana real? Os engenheiros do Google não estão dizendo, mas deixaram uma grande pista. Cada uma das amostras de arquivo .wav tem um nome de arquivo contendo o termo 'gen' ou 'gt.' Com base no artigo, é altamente provável que 'gen' indique a fala gerada pelo Tacotron 2 e 'gt' seja a fala humana real. ('GT' provavelmente significa 'verdade básica', um termo de aprendizado de máquina que basicamente significa 'o negócio real'.)

Supondo que isso esteja correto, aqui estão as respostas para o teste:

'Aquela garota fez um vídeo sobre batom Star Wars.'

Amostra 1: Ser humano real

Amostra 2: Tacotron 2

'Ela obteve um doutorado em sociologia pela Universidade de Columbia.'

Amostra 1: Tacotron 2

Amostra 2: Ser humano real

'George Washington foi o primeiro presidente dos Estados Unidos.'

Amostra 1: Tacotron 2

Amostra 2: Ser humano real

'Estou muito ocupado para romance.'

Amostra 1: Ser humano real