模型蒸馏

前言DeepSeek公开了一套模型蒸馏的基本范式,同时公开了基于Qwen2.5、Llama3的蒸馏模型。 本文仅为简单介绍DeepSeep模型蒸馏范式的基本流程。 其中,Qwen1.5B的推理性能已经超过了GPT4o,而Qwen32B到推理性能可以达...

495 技术#AI#DeepSeek#模型蒸馏

大模型应用开发 - 智能体设计模式

参考:https://www.anthropic.com/research/building-effective-agentsanthropic在24年12月发布了六种智能体设计模式,涵盖了常见了大模型应用在开发上的场景。 前言1. 什么是Agent...

805 技术#AI#大模型应用
12



总访问
发表了 19 篇文章 🔸 总计 43.8k 字