DeepSeekMath:
Uma Nova Fronteira na Inteligência Artificial para o Raciocínio Matemático
Caros estudantes de licenciatura em matemática, preparem-se para explorar uma nova e fascinante área onde a inteligência artificial (IA) desafia os limites do raciocínio matemático! Um artigo de 2024, "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models", apresenta um modelo de linguagem chamado DeepSeekMath, desenvolvido pela DeepSeek-AI, que está alcançando resultados impressionantes na resolução de problemas matemáticos complexos. Vamos mergulhar nos detalhes dessa pesquisa inovadora.

2 Contributors

O Desafio do Raciocínio Matemático para a IA
1
Matemática é uma disciplina complexa
Modelos de linguagem têm desafios significativos para compreender e gerar raciocínios matemáticos coerentes.
2
Avanços recentes na IA
Modelos como GPT-4 e Gemini-Ultra têm demonstrado capacidades notáveis na resolução de problemas matemáticos complexos.
3
Acesso limitado a tecnologias de ponta
O acesso a essas tecnologias avançadas nem sempre é público, levando ao surgimento de modelos como o DeepSeekMath.
DeepSeekMath: Uma Abordagem Dedicada à Matemática
A equipe por trás do DeepSeekMath introduziu um modelo de linguagem específico para o domínio da matemática, o DeepSeekMath 7B, que demonstra um desempenho notavelmente superior a outros modelos de código aberto e se aproxima do nível de modelos proprietários como o GPT-4 em benchmarks acadêmicos. O segredo por trás dessa capacidade reside em dois pilares principais: um corpus de pré-treinamento de alta qualidade e em larga escala e uma técnica de otimização de aprendizado por reforço inovadora.
Pilares do DeepSeekMath
  • Corpus de pré-treinamento de alta qualidade
  • Técnica de otimização de aprendizado por reforço inovadora
  • Modelo específico para o domínio da matemática
  • Desempenho competitivo com modelos proprietários
Construindo um Tesouro de Conhecimento Matemático: O DeepSeekMath Corpus
Para munir o DeepSeekMath com o conhecimento matemático necessário, os pesquisadores criaram o DeepSeek-Math Corpus, um conjunto de dados massivo contendo 120 bilhões de tokens relacionados à matemática. Esses tokens foram extraídos da vasta quantidade de informações disponíveis no Common Crawl (CC), um arquivo público da web. O processo de coleta de dados foi meticulosamente projetado, utilizando um classificador baseado em fastText.
Treinamento Inicial do Classificador
Inicialmente, o classificador foi treinado com exemplos de alta qualidade do OpenWebMath, marcados como exemplos positivos de conteúdo matemático, e uma seleção diversificada de outras páginas da web como exemplos negativos.
Identificação de Conteúdo Matemático
Em seguida, esse classificador foi usado para identificar mais páginas com conteúdo matemático no Common Crawl. As páginas mais relevantes foram então refinadas por anotação humana.
Atualização Iterativa
O classificador foi atualizado iterativamente com esses dados aprimorados para melhorar sua precisão na identificação de conteúdo matemático relevante.
A qualidade desse corpus é evidenciada pelo desempenho do modelo base DeepSeekMath-Base 7B, que alcançou 64,2% de precisão no benchmark GSM8K e 36,2% no desafiador benchmark MATH. Para colocar em perspectiva, o benchmark MATH é reconhecido por apresentar problemas matemáticos de nível de competição.
Em comparação com outros datasets matemáticos, o DeepSeekMath Corpus se destaca pelo seu tamanho significativamente maior e por sua natureza multilíngue, abrangendo principalmente inglês e chinês. Essa característica permitiu que o DeepSeekMath apresentasse melhorias também em benchmarks de matemática em chinês.
Superando as Expectativas: Desempenho em Benchmarks
Os resultados de avaliação demonstram o poder do DeepSeekMath. Sem usar ferramentas externas ou técnicas de votação, o DeepSeekMath 7B alcançou uma impressionante pontuação de 51,7% no benchmark MATH de nível de competição. Essa performance o coloca em um patamar próximo ao de modelos muito maiores e proprietários como o Gemini-Ultra e o GPT-4. Utilizando uma técnica chamada auto-consistência sobre 64 amostras, o DeepSeekMath 7B atingiu 60,9% no MATH.
Além disso, o DeepSeekMath-Base 7B superou outros modelos de código aberto em diversos benchmarks de matemática em inglês e chinês, incluindo o próprio MATH. Notavelmente, ele superou o Minerva 540B, um modelo fechado muito maior, no benchmark MATH. Isso sugere que a qualidade dos dados de treinamento pode ser tão importante quanto o número de parâmetros em um modelo.
A Influência do Treinamento com Código
Uma descoberta interessante da pesquisa é que iniciar o treinamento com um modelo pré-treinado em código (DeepSeek-Coder-Base-v1.5 7B) mostrou ser uma escolha melhor do que começar com um LLM de propósito geral para tarefas matemáticas. Os experimentos indicam que o treinamento em matemática também melhora a capacidade do modelo em outros benchmarks de raciocínio geral, como o MMLU e o BBH. Essa observação oferece uma resposta parcial à questão de se o treinamento em código melhora as habilidades de raciocínio, sugerindo que, pelo menos para o raciocínio matemático, parece haver um benefício claro.
Benefícios do Treinamento com Código
O modelo pré-treinado em código demonstrou melhor desempenho em tarefas matemáticas
Transferência de Habilidades
Habilidades adquiridas no treinamento matemático melhoram o raciocínio geral
Evidência Empírica
Melhoria observada em benchmarks como MMLU e BBH
Aprimoramento com Aprendizado por Reforço: GRPO
Para refinar ainda mais as capacidades do DeepSeekMath, os pesquisadores introduziram uma nova técnica de aprendizado por reforço chamada Group Relative Policy Optimization (GRPO). O GRPO é uma variação do Proximal Policy Optimization (PPO), um algoritmo amplamente utilizado no ajuste fino de LLMs. Uma das principais vantagens do GRPO é que ele dispensa a necessidade de um modelo crítico, estimando uma linha de base a partir de pontuações de grupo, o que reduz significativamente o uso de recursos computacionais em comparação com o PPO.
Ao aplicar o GRPO a uma versão instruída do DeepSeekMath (DeepSeekMath-Instruct), utilizando apenas um subconjunto de dados de ajuste fino em inglês, observou-se uma melhora substancial no desempenho, tanto em tarefas matemáticas dentro do domínio (GSM8K e MATH) quanto fora do domínio (CMATH). Essa melhoria demonstra a eficácia do aprendizado por reforço para aprimorar as habilidades de raciocínio matemático de LLMs.
Dados de Treinamento
Subconjunto de dados de ajuste fino em inglês
Aplicação do GRPO
Otimização sem modelo crítico
Melhoria de Desempenho
Aumento significativo em benchmarks matemáticos
Generalização
Melhoria em tarefas dentro e fora do domínio
Lições Aprendidas e Conclusões
O DeepSeekMath representa um avanço notável no campo da inteligência artificial para o raciocínio matemático, oferecendo insights valiosos sobre pré-treinamento e métodos de otimização.
Insights sobre Pré-treinamento
A pesquisa revelou que artigos do arXiv, embora frequentemente utilizados em pré-treinamento matemático, não trouxeram melhorias notáveis nos benchmarks adotados, desafiando suposições comuns sobre fontes de dados.
Paradigma Unificado de Treinamento
O artigo apresenta um paradigma unificado para compreender diferentes métodos de treinamento, incluindo SFT, RFT, DPO, PPO e GRPO, criando uma base teórica para futuras explorações em aprendizado por reforço.
Avanço para a IA Matemática Aberta
O DeepSeekMath demonstra um desempenho competitivo com modelos proprietários, permanecendo acessível como um modelo de código aberto, expandindo os limites das capacidades da IA em matemática.
Novas Possibilidades
Para futuros matemáticos, o DeepSeekMath abre novas possibilidades para a exploração e o auxílio na resolução de problemas complexos, marcando um capítulo emocionante na interseção entre a matemática e a inteligência artificial.

Referência: Shao et al. (2024). "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models". arXiv:2402.03300v3.

arXiv.org

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open...

Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training...

Podcast gerado por IA NotebookLM do Google

Google Docs

DeepSeekMath_ Open Language Model Pushing Math Reasoning Limits (1).wav