模型蒸馏 - ChongWen

前言

DeepSeek公开了一套模型蒸馏的基本范式，同时公开了基于Qwen2.5、Llama3的蒸馏模型。

本文仅为简单介绍DeepSeep模型蒸馏范式的基本流程。

其中，Qwen1.5B的推理性能已经超过了GPT4o，而Qwen32B到推理性能可以达到GPTo1-mini的水平。

AIME2024pass@1：测试模型在高难度数学推理和问题解决中的一次性表现能力。

AIME2024cons@64：测试模型在复杂数学任务中的稳定性和一致性能力。

MATH500pass@1：测试模型在广泛数学知识和高难度数学问题中的一次性解决能力。

GPQADiamondpass@1：测试模型在跨学科通用知识和复杂问答任务中的一次性表现能力。

LiveCodeBenchpass@1：测试模型在编程任务中的代码生成和问题解决能力。

CodeForcesrating：测试模型在算法设计和编程竞赛中的综合表现能力。