前言

DeepSeek公开了一套模型蒸馏的基本范式,同时公开了基于Qwen2.5、Llama3的蒸馏模型。

本文仅为简单介绍DeepSeep模型蒸馏范式的基本流程。

其中,Qwen1.5B的推理性能已经超过了GPT4o,而Qwen32B到推理性能可以达到GPTo1-mini的水平。

  1. AIME2024pass@1:测试模型在高难度数学推理和问题解决中的一次性表现能力。
  2. AIME2024cons@64:测试模型在复杂数学任务中的稳定性和一致性能力。
  3. MATH500pass@1:测试模型在广泛数学知识和高难度数学问题中的一次性解决能力。
  4. GPQADiamondpass@1:测试模型在跨学科通用知识和复杂问答任务中的一次性表现能力。
  5. LiveCodeBenchpass@1:测试模型在编程任务中的代码生成和问题解决能力。
  6. CodeForcesrating:测试模型在算法设计和编程竞赛中的综合表现能力。

image-20250302124007897

模型蒸馏范式

模型厂家对某个模型一般会开源两个版本,Base和Chat。

  • Base:只经过了预训练,没有经过全量指令微调,对话可能会胡言乱语,但有更好的调教空间。
  • Chat:经过了全量指令微调,有对话能力。

DeepSeek R1提出的模型蒸馏路径:

  1. 选择某个Base模型。 DeepSeek开源的蒸馏模型都基于Base版本。
  2. 对Base模型进行全量指令微调,利用高质量的问答数据,数据量不用大,几千条数据。知道基本的对话范式,学会开符、终止符。
  3. 利用非常大量COT数据进行训练。训练后 会把思考连看成是回答用户内容的一部分,输出时携带思考内容。所以需要经过大量的数据进行微调。
  4. 经过COT数据微调之后,可能模型还有很多问答上的问题,需要再进行训练。

image-20250302131513338

image-20250302130725332

DeepSeek模型训练路径(简化版)

image-20250302130756674




总访问
发表了 19 篇文章 🔸 总计 43.8k 字