26 mar às 09:47

A OpenAI atualiza seus modelos de IA para transcrição e geração de voz

A OpenAI está trazendo novos modelos de IA para transcrição e geração de voz para sua API. Que, segundo a empresa, melhoram suas versões anteriores.

Para a OpenAI, os modelos se encaixam em sua visão “agêntica” mais ampla:

criar sistemas automatizados que possam realizar tarefas de forma independente em nome dos usuários.

A definição de “agente” pode estar em disputa, mas o Chefe de Produto da OpenAI, Olivier Godement, descreveu uma interpretação como um chatbot que pode falar com os clientes de uma empresa.

“Veremos mais e mais agentes surgindo nos próximos meses”, disse Godement ao TechCrunch durante uma reunião. “E, portanto, o tema geral é ajudar os clientes e desenvolvedores a aproveitar agentes que sejam úteis, disponíveis e precisos.”

Uma Fala Mais Sutil e Realista

A OpenAI afirma que seu novo modelo de conversão de texto em fala, o “gpt-4o-mini-tts”, não apenas oferece uma fala com mais nuances e sons realistas, mas também é mais “orientável” do que seus modelos de sintetização de fala da geração anterior. Os desenvolvedores podem instruir o gpt-4o-mini-tts sobre como dizer coisas em linguagem natural, por exemplo,

“fale como um cientista louco”
ou “use uma voz serena, como um professor de mindfulness”.

Aqui está uma voz desgastada, no “verdadeiro estilo de crime”:

E aqui está um exemplo de uma voz feminina “profissional”:

O Objetivo

Jeff Harris, membro da equipe de produtos da OpenAI, disse ao TechCrunch que o objetivo é permitir que os desenvolvedores personalizem tanto a

a “experiência” de voz
e o “contexto”.

“Em diferentes contextos, você não quer apenas uma voz plana e monótona”, disse Harris. “Se você estiver em uma experiência de suporte ao cliente e quiser que a voz se desculpe porque cometeu um erro. Você pode realmente fazer com que a voz tenha essa emoção… Nossa grande crença aqui é que os desenvolvedores e usuários querem realmente controlar não apenas o que é falado, mas como as coisas são faladas.”

Quanto aos novos modelos de conversão de voz em texto da OpenAI:

“gpt-4o-transcribe”
e “gpt-4o-mini-transcribe”,

eles Substituem de fato o Modelo de Transcrição Whisper da empresa, que está em uso há muito tempo. Treinados em “Conjuntos de Dados de Áudio Diversos e de Alta Qualidade”, os novos modelos podem Capturar melhor a Fala Acentuada e Variada, afirma a OpenAI, mesmo em Ambientes Caóticos.

Menor Probabilidade de Alucinação

Eles também têm menos Probabilidade de Ter Alucinações, Acrescentou Harris. O Whisper notoriamente tendia a fabricar palavras – e até Mesmo Passagens Inteiras – em Conversas, Introduzindo tudo, desde Comentários Raciais até Tratamentos Médicos Imaginários em Transcrições.

“Esses modelos são Muito Melhores do que os do Whisper nesse Aspecto”, disse Harris. “Garantir que os modelos sejam Precisos é Totalmente Essencial para obter uma experiência de Voz Confiável, e preciso [nesse contexto] significa que os Modelos estão Ouvindo as Palavras com Precisão [e] não estão Preenchendo Detalhes que não ouviram.”

No entanto, sua Milhagem pode variar Dependendo do idioma que está sendo Transcrito.

De acordo com os Benchmarks Internos da OpenAI, o gpt-4o-transcribe, o mais preciso dos dois modelos de Transcrição, tem uma “taxa de erro de palavras” próxima a 30% (de um total de 120%) para idiomas indianos e dravidianos, como tâmil, telugu, malaiala e kannada. Isso significa que três em cada 10 palavras do modelo serão diferentes de uma transcrição humana nesses idiomas.

Os Resultados do Benchmarking de Transcrição da OpenAI. Créditos da imagem: OpenAI

Uma Ruptura Com a Tradição

Em uma ruptura com a Tradição, a OpenAI não planeja Disponibilizar seus Novos Modelos de Transcrição Abertamente. Historicamente, a empresa lançou novas versões do Whisper para Uso Comercial sob uma Licença MIT.

Harris disse que o gpt-4o-transcribe e o gpt-4o-mini-transcribe são “muito maiores que o Whisper” e, portanto, não são Bons Candidatos para um Lançamento Aberto.

“Eles não são o tipo de modelo que você pode Executar Localmente em seu laptop, como o Whisper”, Continuou. “Queremos ter certeza de que, se estamos Lançando Coisas em Código Aberto, estamos fazendo isso Cuidadosamente. Estamos fazendo isso com cuidado. E temos um modelo que foi Realmente Aperfeiçoado para essa Necessidade Específica. E achamos que os Dispositivos para Usuários Finais são um dos casos Mais Interessantes para modelos de código aberto.”

Atualizado em 20 de março de 2025, às 11h54 (horário de Brasília), para Esclarecer a Linguagem sobre a Taxa de Erro de Palavras e Atualizar o Gráfico de Resultados de Benchmark com uma Versão Mais Recente.

Fonte: Tech Crunch

Leia outras notícias em nosso blog

Precisa de um Servidor Web? Dê uma olhada em nossos serviços

Cookies?

Servidores

Hospedagem de Sites

E-mails

Segurança

A OpenAI atualiza seus modelos de IA para transcrição e geração de voz

Uma Fala Mais Sutil e Realista

O Objetivo

Menor Probabilidade de Alucinação

Uma Ruptura Com a Tradição

Você pode gostar também

Logos: Dia Internacional dos Gatos 2023

Os promotores de vendas devem ter um argumento de venda?

Google inicia pesquisas de nome de domínio com criptografia

Ação de vendas de nomes de domínio 19/08-20 Roboclean.com de $ 10.000 para queda

More Similar Posts

Apache lança correção para exploit crítico de execução remota de código OFBiz

O kernel Linux é vulnerável a um ataque de cache cruzado SLUBStick descoberto recentemente

Publique seus melhores .coms à venda até US $ 500

TheMortgage.com de US $ 500.000 a US $ 15.050

Logos: Dia do Macintosh 2024

Mask.com é agora o nome de domínio com preço mais alto na BrandBucket

Servidores

Hospedagens

E-mails

Serviços de Segurança