栏目分类
4090显卡一手一足就能跑满血版DeepSeek-R1 清华团队突破大模子算力难题
发布日期:2025-02-18 11:03 点击次数:102
2月10日,清华大学KVCache.AI团队集中趋境科技发布的KTransformers开源神气迎来紧要更新,得手冲突大模子推理算力门槛。此前,领有671B参数的MoE架构大模子DeepSeek-R1在推理时珍藏重重。推理作事器常因高负荷宕机,专属版云作事器按GPU小时计费的华贵老本让中小团队无力承担,而市面上的“土产货部署”有预备多为参数目大幅缩水的蒸馏版,在土产货小鸿沟硬件上动手满血版 DeepSeek-R1 被以为果真不能能。
这次KTransformers神气更新带来紧要突破,援救在24G显存(4090D)的诞生上土产货动手 DeepSeek-R1、V3的671B满血版。其预惩办速率最高可达286 tokens/s,推理生成速率最高能达到14 tokens/s。甚而有开辟者借助这一优化时刻,在3090显卡和200GB内存的树立下,恒指交易使Q2_K_XL模子的推理速率达到9.1 tokens/s,完毕了千亿级模子的 “家庭化” 动手。
此外,该神气v0.3预览版还将整合Intel AMX领导集,进一步擢升CPU预填充速率,最高至286 tokens/s,比拟llama.cpp快了近28倍,为长序列任务带来秒级反应。同期,KTransformers提供兼容Hugginface Transformers的API与ChatGPT式Web界面,裁减上手难度,其基于YAML的“模板注入框架”可活泼切换多种优化步地。
上一篇:2024年海外收支保捏基本平衡 双向跨境成本流动总体有序
下一篇:没有了