A OpenAI está trazendo novos modelos de IA para transcrição e geração de voz para sua API. Que, segundo a empresa, melhoram suas versões anteriores.
Para a OpenAI, os modelos se encaixam em sua visão “agêntica” mais ampla:
- criar sistemas automatizados que possam realizar tarefas de forma independente em nome dos usuários.
A definição de “agente” pode estar em disputa, mas o Chefe de Produto da OpenAI, Olivier Godement, descreveu uma interpretação como um chatbot que pode falar com os clientes de uma empresa.
“Veremos mais e mais agentes surgindo nos próximos meses”, disse Godement ao TechCrunch durante uma reunião. “E, portanto, o tema geral é ajudar os clientes e desenvolvedores a aproveitar agentes que sejam úteis, disponíveis e precisos.”
Uma Fala Mais Sutil e Realista
A OpenAI afirma que seu novo modelo de conversão de texto em fala, o “gpt-4o-mini-tts”, não apenas oferece uma fala com mais nuances e sons realistas, mas também é mais “orientável” do que seus modelos de sintetização de fala da geração anterior. Os desenvolvedores podem instruir o gpt-4o-mini-tts sobre como dizer coisas em linguagem natural, por exemplo,
- “fale como um cientista louco”
- ou “use uma voz serena, como um professor de mindfulness”.
Aqui está uma voz desgastada, no “verdadeiro estilo de crime”:
E aqui está um exemplo de uma voz feminina “profissional”:
O Objetivo
Jeff Harris, membro da equipe de produtos da OpenAI, disse ao TechCrunch que o objetivo é permitir que os desenvolvedores personalizem tanto a
- a “experiência” de voz
- e o “contexto”.
“Em diferentes contextos, você não quer apenas uma voz plana e monótona”, disse Harris. “Se você estiver em uma experiência de suporte ao cliente e quiser que a voz se desculpe porque cometeu um erro. Você pode realmente fazer com que a voz tenha essa emoção… Nossa grande crença aqui é que os desenvolvedores e usuários querem realmente controlar não apenas o que é falado, mas como as coisas são faladas.”
Quanto aos novos modelos de conversão de voz em texto da OpenAI:
- “gpt-4o-transcribe”
- e “gpt-4o-mini-transcribe”,
eles Substituem de fato o Modelo de Transcrição Whisper da empresa, que está em uso há muito tempo. Treinados em “Conjuntos de Dados de Áudio Diversos e de Alta Qualidade”, os novos modelos podem Capturar melhor a Fala Acentuada e Variada, afirma a OpenAI, mesmo em Ambientes Caóticos.
Menor Probabilidade de Alucinação
Eles também têm menos Probabilidade de Ter Alucinações, Acrescentou Harris. O Whisper notoriamente tendia a fabricar palavras – e até Mesmo Passagens Inteiras – em Conversas, Introduzindo tudo, desde Comentários Raciais até Tratamentos Médicos Imaginários em Transcrições.
“Esses modelos são Muito Melhores do que os do Whisper nesse Aspecto”, disse Harris. “Garantir que os modelos sejam Precisos é Totalmente Essencial para obter uma experiência de Voz Confiável, e preciso [nesse contexto] significa que os Modelos estão Ouvindo as Palavras com Precisão [e] não estão Preenchendo Detalhes que não ouviram.”
No entanto, sua Milhagem pode variar Dependendo do idioma que está sendo Transcrito.
De acordo com os Benchmarks Internos da OpenAI, o gpt-4o-transcribe, o mais preciso dos dois modelos de Transcrição, tem uma “taxa de erro de palavras” próxima a 30% (de um total de 120%) para idiomas indianos e dravidianos, como tâmil, telugu, malaiala e kannada. Isso significa que três em cada 10 palavras do modelo serão diferentes de uma transcrição humana nesses idiomas.
Os Resultados do Benchmarking de Transcrição da OpenAI. Créditos da imagem: OpenAI
Uma Ruptura Com a Tradição
Em uma ruptura com a Tradição, a OpenAI não planeja Disponibilizar seus Novos Modelos de Transcrição Abertamente. Historicamente, a empresa lançou novas versões do Whisper para Uso Comercial sob uma Licença MIT.
Harris disse que o gpt-4o-transcribe e o gpt-4o-mini-transcribe são “muito maiores que o Whisper” e, portanto, não são Bons Candidatos para um Lançamento Aberto.
“Eles não são o tipo de modelo que você pode Executar Localmente em seu laptop, como o Whisper”, Continuou. “Queremos ter certeza de que, se estamos Lançando Coisas em Código Aberto, estamos fazendo isso Cuidadosamente. Estamos fazendo isso com cuidado. E temos um modelo que foi Realmente Aperfeiçoado para essa Necessidade Específica. E achamos que os Dispositivos para Usuários Finais são um dos casos Mais Interessantes para modelos de código aberto.”
Atualizado em 20 de março de 2025, às 11h54 (horário de Brasília), para Esclarecer a Linguagem sobre a Taxa de Erro de Palavras e Atualizar o Gráfico de Resultados de Benchmark com uma Versão Mais Recente.
Fonte: Tech Crunch
Leia outras notícias em nosso blog
Precisa de um Servidor Web? Dê uma olhada em nossos serviços