栏目分类
中国联通:针对DeepSeek系列模子进行了优化升级 平均省俭30%推理缱绻量
发布日期:2025-03-03 16:24 点击次数:54
中国联通近日秘书,继1月开源元景“自稳妥慢想考”想维链大模子后,又针对DeepSeek系列模子进行了“自稳妥慢想考”优化升级,平均可省俭约30%的推理缱绻量,现已开源。这亦然当今业界首个对DeepSeek系列想维链模子作念“自稳妥慢想考”优化升级的责任。
“以我为主,为我所用”的灵通改动
元景想维链大模子具备多学科、多场景通用推理能力,且能在确保慢想考能力不打折的情况下,作念到针对不同任务和难度的自稳妥慢想考,大幅镌汰了资源虚耗,竣事了大模子“慢想考”能力高性价比落地应用。
元景想维链大模子接入DeepSeek-R1并非浅陋的“拿来概念”,而是“从其善,优其不善”,对DeepSeek-R1版块进行了解救,最猛进度遁入了其濒临浅陋问题“过度想考”的时事,使模子具备了“自稳妥”能力。即在面向难度较高问题时使用慢想考形态生成长想维链,面向浅陋问题时则倾向于生成大概的想维链,飞速准确的输出有关谜底。这么幸免了谜底的冗余、资源的浪费以及减少用户恭候期间,提高用户体验。
解救法子完好共享
难度自稳妥微调:为竣事模子推理的难度自稳妥,中国联通欺诈DeepSeek-R1满血版模子采样生成数据,上海股票配资通过复杂度量化模块构造长度偏好数据集,关于浅陋问题从采样谜底中挑选长度较短的谜底,对贫困问题挑选长度较长的谜底,使得谜底长度与面前问题复杂度相匹配。在此基础上对DeepSeek-R1进行微调,使得微调后的模子具备对不同难度题标的自稳妥慢想考能力。

具体修订经由如下图所示。 自稳妥慢想考的DeepSeek-R1满血版模子践诺经由图
二次蒸馏:针对DeepSeek-R1的系列蒸馏模子,由于其使用的蒸馏数据来自践诺满血版R1时使用的践诺数据,而非由性能更好的R1满血版自己生成的数据,这会导致获得的蒸馏模子未能充分学习R1满血版的能力,98优配蒸馏成果大打扣头。为处分这个问题,中国联通使用了二次蒸馏的政策,即欺诈DeepSeek-R1满血版将已积贮的高质地数据转动为包括深度想考过程的长想维链体式数据,在DeepSeek-R1蒸馏系列模子基础上再进行一次微调,使模子具备更强的推理能力。
难度自稳妥强化学习:在对模子进行二次蒸馏后,中国联通进一步模仿DeepSeek-R1的构建想路,在GRPO算法基础上建议了一种难度自稳妥强化学习算法DA-GRPO(Difficulty Adaptive GRPO),对二次蒸馏模子进行难度自稳妥的强化学习践诺,进一步提高其推理成果。除了使用传统的基于限定的正确性奖励、体式奖励、说话一致性奖励外,DA-GRPO还基于每个问题的复杂进度和生成谜底的长度对奖励得分进行校准。具体而言,要是模子对一个浅陋问题输出较长的谜底,则对奖励分数进行相应的处分。同期,若模子对贫困的问题输出较长的谜底,则予以其更高的奖励分数,以荧惑其进行更充分的想考。这么,通过提高样本谜底奖励得分的鉴识度,使模子具备凭据问题难度输出相应长度谜底的能力,在保证推理准确率的前提下显耀减少了谜底冗余和资源虚耗,从而竣事对不同难度问题的自稳妥慢想考。

自稳妥慢想考的DeepSeek-R1蒸馏版模子践诺经由图
推理缱绻量省俭约30%
中国联通以DeepSeek-R1-distill-32B模子为例,对上述步调的成果进行了考证。通过在数学任务测评集(MATH500)上对比以及具体实验不错看到,经过难度自稳妥修订后的模子在不同难度等第问题上生成的回话长度较原版均显然着落,何况关于最高难度(Level 5)输出的回话长度降幅最大,体现了模子对不同难度等第问题具备自稳妥慢想考能力。经过测评,这种改动的自稳妥慢想考步调,平均可省俭约30%的推理缱绻量,冗余输出大幅减少,用户体验获得有用提高。

回话长度对比:原版DeepSeek-R1-distill-32B(浅蓝)vs自稳妥版(深蓝)