98优配

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

网上理财

你的位置:98优配 > 网上理财 > 4090显卡一手一足就能跑满血版DeepSeek-R1 清华团队突破大模子算力难题

4090显卡一手一足就能跑满血版DeepSeek-R1 清华团队突破大模子算力难题

发布日期:2025-02-18 11:03    点击次数:102

  2月10日,清华大学KVCache.AI团队集中趋境科技发布的KTransformers开源神气迎来紧要更新,得手冲突大模子推理算力门槛。此前,领有671B参数的MoE架构大模子DeepSeek-R1在推理时珍藏重重。推理作事器常因高负荷宕机,专属版云作事器按GPU小时计费的华贵老本让中小团队无力承担,而市面上的“土产货部署”有预备多为参数目大幅缩水的蒸馏版,在土产货小鸿沟硬件上动手满血版 DeepSeek-R1 被以为果真不能能。

  这次KTransformers神气更新带来紧要突破,援救在24G显存(4090D)的诞生上土产货动手 DeepSeek-R1、V3的671B满血版。其预惩办速率最高可达286 tokens/s,推理生成速率最高能达到14 tokens/s。甚而有开辟者借助这一优化时刻,在3090显卡和200GB内存的树立下,恒指交易使Q2_K_XL模子的推理速率达到9.1 tokens/s,完毕了千亿级模子的 “家庭化” 动手。

  此外,该神气v0.3预览版还将整合Intel AMX领导集,进一步擢升CPU预填充速率,最高至286 tokens/s,比拟llama.cpp快了近28倍,为长序列任务带来秒级反应。同期,KTransformers提供兼容Hugginface Transformers的API与ChatGPT式Web界面,裁减上手难度,其基于YAML的“模板注入框架”可活泼切换多种优化步地。