O que o DeepSeek Descobriu sobre Raciocínio com o DeepSeek-R1?
O Laboratório Chinês de IA1 DeepSeek lançou recentemente seu novo Modelo de Raciocínio R1, que supostamente é
- (a) melhor do que os Melhores Modelos de Raciocínio Atuais (série o1- da OpenAI) e
- (b) foi treinado em um Cluster de GPU com uma Fração do Tamanho de qualquer um dos Grandes Laboratórios de IA Ocidentais.
Ao contrário dos Grandes Laboratórios de IA ocidentais, eles publicaram um Documento explicando o que fizeram.
Assim como nas Postagens Anteriores, esta é mais uma Tentativa de Pensar em Voz Alta. E Internalizar o que Aprendi ao Ler o Artigo. Não sou Especialista Nessa Área: Trabalho com Produtos de IA no GitHub. Mas a ênfase está em “produto”, não em “IA”. Espero que isso seja útil para outros não Especialistas, mas, de qualquer forma, é útil para mim.
Muito bem, vamos definir “Modelo de Raciocínio”. Um modelo regular recebe um prompt e prevê os Próximos n tokens. (Ou seja, Completar uma Frase ou responder a uma Pergunta). O modelo “Pensa” (ou seja, Realiza Multiplicações de Matrizes) Exatamente no mesmo Período de tempo para cada token. Isso significa que:
- quanto mais tempo o Modelo Passa Falando, mais tempo ele tem para se Dedicar a uma Pergunta e Melhor será a Resposta que você receberá.
- É por isso que avisos como “Pense Passo a Passo” e “explique seu Raciocínio antes de responder” são Conhecidos por ajudar.
Como Funcionam os modelos da OpenAI
Um Modelo de Raciocínio Tenta Incorporar esse Comportamento ao Próprio Modelo. O Funcionamento Exato dos Modelos da OpenAI é um Segredo Comercial, mas uma resposta simples poderia ser a seguinte2:
- Comece com um Modelo Normal Inteligente, como o GPT-4o
- Usando esse Modelo, Gere milhões ou bilhões de Cadeias de Pensamento pedindo que ele pense passo a passo em uma Série de Problemas
- Filtre essas cadeias de pensamento para remover respostas incorretas (verificando com outro modelo inteligente ou com verificações automatizadas, se possível)
- Use todos esses dados para ajustar seu modelo normal inteligente. Com isso ele responde com cadeias de pensamento o tempo todo.
Treinamento
A etapa (4) é tão cara quanto qualquer grande execução de treinamento. Mas as etapas (2) e (3) são exclusivas do treinamento de modelos de raciocínio e também são muito caras. Isso ocorre porque elas exigem acesso irrestrito a um modelo inteligente e tempo suficiente para gerar um grande volume de dados de qualidade. O treinamento do DeepSeek é mais rápido porque ele não executa nenhuma dessas etapas. Em vez disso, eles:
- Começam com um modelo normal inteligente, como o DeepSeek-V3, e executam o seguinte loop de aprendizado por reforço
- Pedem a esse modelo que resolva um problema matemático, com um prompt que o leve a pensar passo a passo
- Verificar a resposta no código (ou seja, não com um modelo, mas analisando diretamente a resposta e verificando-a)
- Se estiver correta, recompense o modelo; se estiver errada, puna o modelo
- Repetir por um longo período
Em resumo, essa é uma abordagem de aprendizado por reforço, não uma abordagem de ajuste fino. Não há necessidade de gerar um enorme conjunto de dados de cadeia de pensamento antecipadamente e não há necessidade de executar um modelo caro de verificação de respostas. Em vez disso, o modelo gera suas próprias cadeias de raciocínio à medida que avança2. Há outros pontos apresentados no artigo do DeepSeek-R1, mas acho que esse é de longe o mais importante.
Custo Benefício
Além dos Benefícios em Termos de Custo, acredito que a Abordagem do DeepSeek também pode trazer Benefícios em Termos de Qualidade. A (Suposta) abordagem da OpenAI acima só pode Raciocinar tão bem quanto os Melhores Momentos de seu Modelo Inteligente Original, porque está Prevendo as Etapas Exatas de Raciocínio que o modelo original forneceu. A Abordagem do DeepSeek pode, Teoricamente, Raciocinar Muito Melhor do que o Modelo Original, porque, à medida que continua aprendendo, está fornecendo suas próprias Cadeias de Raciocínio Totalmente Novas que são avaliadas apenas pela qualidade da conclusão. Na minha opinião, é muito mais provável que isso leve ao raciocínio superinteligente verdadeiramente Alienígena que as Pessoas estão prevendo (e que já vemos em Programas de Xadrez Superinteligentes).
Abordagem da DeepSeek
Então, a abordagem do DeepSeek é simplesmente melhor? Acho que não. Restringir seu Processo de Treinamento a Cadeias de Pensamento que podem ser Verificadas Mecanicamente (ou seja, sem um modelo) significa que você só pode realmente Treinar o Modelo em Codificação e Matemática. Simplesmente não há como fazer um Quebra-Cabeça Lógico de Palavras, uma Análise Jurídica ou qualquer Outra Forma de Raciocínio que possamos querer de um Modelo de Raciocínio.
Teoricamente, é possível que isso não importe, pois a Superinteligência em Codificação/Matemática pode ser Transferida para Outros Domínios. Pelo que entendi, vimos isso acontecer em Modelos Normais – à medida que são treinados em mais Códigos, eles se tornam melhores em domínios não codificados. Mas isso ainda precisa ser demonstrado na prática. Não acho que o Deepseek-R1 esteja esmagando as ciências humanas no momento.
Adendo:
Essa é uma Abordagem Relativamente Simples, na qual Outras Pessoas já devem ter pensado. Por que isso Aconteceu Agora e não há um Ano? A Resposta mais Convincente Provavelmente é a Seguinte: os Modelos Básicos de Código Aberto tiveram que se tornar Bons o Suficiente em Raciocínio para que Pudessem ser transformados em modelos de Raciocínio. É Plausível que, há um ano, esse não fosse o caso. Uma Resposta Menos Convincente: a Qualidade dos Benchmarks baseados em raciocínio é muito maior agora do que antes. Para que essa abordagem funcione, você precisa alimentar o modelo com uma tonelada de problemas que exijam Raciocínio para serem Resolvidos (caso contrário, ele irá Direto para a Solução). Talvez esses Problemas só tenham se Tornado Disponíveis recentemente.
- Supostamente, Não é nem mesmo um Laboratório de IA, mas apenas uma Loja de Computação com muitas GPUs Sobressalentes (!?)
↩ - Não posso deixar de Enfatizar que Não Tenho a menor ideia do que a OpenAI está fazendo. E isso é apenas um Palpite. Mesmo que eles estejam fazendo algo nesse Sentido, Certamente será mais Sofisticado.
↩ - Observação: isso Descreve Tecnicamente o DeepSeek-R1-Zero, e não o DeepSeek-R1, que é Alimentado com algumas Milhares de Cadeias de Pensamento como na Abordagem Original. Mas isso é mais uma ideia de “Ensinar ao Modelo como é uma Cadeia de Pensamento Legível”. Não uma ideia de “tornar o Modelo mais Inteligente”
Fonte: Sean Goedecke
Leia outras notícias em nosso blog
Precisa de um Servidor Web? Dê uma olhada nos nossos serviços