4090显卡一手一足就能跑满血版DeepSeek-R1 清华团队突破大模子算力难题

发布日期：2025-02-18 11:03 点击次数：108

　　2月10日，清华大学KVCache.AI团队集中趋境科技发布的KTransformers开源神气迎来紧要更新，得手冲突大模子推理算力门槛。此前，领有671B参数的MoE架构大模子DeepSeek-R1在推理时珍藏重重。推理作事器常因高负荷宕机，专属版云作事器按GPU小时计费的华贵老本让中小团队无力承担，而市面上的“土产货部署”有预备多为参数目大幅缩水的蒸馏版，在土产货小鸿沟硬件上动手满血版 DeepSeek-R1 被以为果真不能能。

　　这次KTransformers神气更新带来紧要突破，援救在24G显存（4090D）的诞生上土产货动手 DeepSeek-R1、V3的671B满血版。其预惩办速率最高可达286 tokens/s，推理生成速率最高能达到14 tokens/s。甚而有开辟者借助这一优化时刻，在3090显卡和200GB内存的树立下，恒指交易使Q2_K_XL模子的推理速率达到9.1 tokens/s，完毕了千亿级模子的 “家庭化” 动手。

　　此外，该神气v0.3预览版还将整合Intel AMX领导集，进一步擢升CPU预填充速率，最高至286 tokens/s，比拟llama.cpp快了近28倍，为长序列任务带来秒级反应。同期，KTransformers提供兼容Hugginface Transformers的API与ChatGPT式Web界面，裁减上手难度，其基于YAML的“模板注入框架”可活泼切换多种优化步地。

上一篇：2024年海外收支保捏基本平衡双向跨境成本流动总体有序

下一篇：明阳电路：3月5日将召开2025年第一次临时激动大会

让建站和SEO变得简单

4090显卡一手一足就能跑满血版DeepSeek-R1 清华团队突破大模子算力难题