www人妻中文字幕_亚洲毛片视频免费_飞天机器人续费_午夜无码漂亮人妻在线视频_永久特黄a级毛片免费下载_十八禁在线黄色网站_亚洲福利一区二区_午夜a级理论片在线播放_不良网站下载_热久久真实少妇

028-85244883
您的當(dāng)前位置: 首頁 > 新聞動(dòng)態(tài) > 國內(nèi)

清華團(tuán)隊(duì)突破大模型算力瓶頸:4090單卡實(shí)現(xiàn)DeepSeek-R1滿血運(yùn)行

時(shí)間:2025-02-21 17:02:37

IT之家 2 月 15 日消息,現(xiàn)階段用戶使用 DeepSeek-R1 的主要途徑無外乎云服務(wù)及“本地部署”,但官網(wǎng)服務(wù)器頻頻宕機(jī)、個(gè)人部署多為參數(shù)量縮水 90% 的蒸餾版。因此,一般用戶要想在普通硬件上運(yùn)行起真正的 DeepSeek-R1 滿血版可以說很難很難,而租賃服務(wù)器的成本就算是開發(fā)者也倍感壓力。

圖片

清華大學(xué) KVCache.AI 團(tuán)隊(duì)與趨境科技聯(lián)合發(fā)布 KTransformers(IT之家注:發(fā)音為 Quick Transformers)開源項(xiàng)目本周宣布迎來重大更新,成功破解千億級(jí)大模型本地部署難題,突破標(biāo)志著大模型推理從“云端壟斷”走向“普惠化”的重要一步。

圖片

如圖所示,KTransformers 團(tuán)隊(duì)于 2 月 10 日成功在 24 GB 顯存 + 382 GB 內(nèi)存的 PC 上實(shí)現(xiàn)本地運(yùn)行 DeepSeek-R1、V3 的 671B 滿血版,速度提高 3~28 倍。

今日, KTransformers 宣布支持更長的上下文(24GB 單卡支持 4~8K),并實(shí)現(xiàn) 15% 加速(每秒最多 16 個(gè) Tokens)。

圖片

據(jù)官方介紹,KTransformers 是一個(gè)靈活的、以 Python 為中心的框架,其設(shè)計(jì)核心是可擴(kuò)展性、通過用一行代碼實(shí)現(xiàn)和注入一個(gè)優(yōu)化模塊,用戶就能訪問兼容 Transformers 的界面、符合 OpenAI 和 Ollama 標(biāo)準(zhǔn)的 RESTful API,甚至是類似 ChatGPT 的簡化網(wǎng)頁用戶界面。

該技術(shù)首次支持在單張 24GB 顯存的消費(fèi)級(jí)顯卡(如 RTX 4090D)上運(yùn)行 DeepSeek-R1 / V3 的 671B 參數(shù)滿血版,預(yù)處理速度最高達(dá) 286 tokens/s,推理生成速度達(dá) 14 tokens/s,徹底改寫了 AI 大模型依賴昂貴云服務(wù)器的歷史格局。

圖片

DeepSeek-R1 基于混合專家(MoE)架構(gòu),其核心是將任務(wù)分配給不同專家模塊,每次推理僅激活部分參數(shù)。團(tuán)隊(duì)創(chuàng)新性地將非共享稀疏矩陣卸載至 CPU 內(nèi)存處理,結(jié)合高速算子優(yōu)化,顯存需求從傳統(tǒng) 8 卡 A100 的 320GB 壓縮至單卡 24GB。

借助于 KTransformers ,普通用戶只需 24G 顯存即可在本地運(yùn)行 DeepSeek-R1、V3 的 671B 滿血版。預(yù)處理速度最高達(dá)到 286 tokens/s,推理生成速度最高能達(dá)到 14 tokens/s。

針對(duì) MoE 架構(gòu)的特點(diǎn),KTransformers 團(tuán)隊(duì)通過 Marlin GPU 算子實(shí)現(xiàn)量化矩陣計(jì)算,效率較傳統(tǒng)方案提升 3.87 倍;再加上 CPU 端突破,采用 llamafile 實(shí)現(xiàn)多線程并行,結(jié)合英特爾 AMX 指令集優(yōu)化,CPU 預(yù)填充速度較 llama.cpp 提升 28 倍,長序列任務(wù)響應(yīng)時(shí)間從分鐘級(jí)縮短至秒級(jí)。

圖片

此外,他們通過減少 CPU / GPU 通信斷點(diǎn),實(shí)現(xiàn)單次解碼僅需一次完整的 CUDA Graph 調(diào)用,生成速度優(yōu)化至 14 tokens/s,功耗僅 80W,整機(jī)成本約 2 萬元,僅為傳統(tǒng) 8 卡 A100 方案的 2%。

經(jīng)過開發(fā)者實(shí)測,使用 RTX 3090 顯卡和 200GB 內(nèi)存配置,結(jié)合 Unsloth 優(yōu)化,Q2_K_XL 模型推理速度達(dá) 9.1 tokens/s,實(shí)現(xiàn)千億級(jí)模型的“家庭化”運(yùn)行。

必須要說明的是,KTransformers 并非一個(gè)單純的推理框架,也不限于 DeepSeek 模型,它可以兼容各式各樣的 MoE 模型和算子,能夠集成各種各樣的算子,做各種組合的測試,同時(shí)還提供了 Windows、Linux 的平臺(tái)的支持,感興趣的用戶可自行嘗試。

圖片

當(dāng)然,要想使用 KTransformers 也有一點(diǎn)硬性條件,而不是說只要有一張 RTX 4090 就能無障礙運(yùn)行。先決條件要保證:

  • CPU:英特爾至強(qiáng) Gold 6454S 1T DRAM(2 個(gè) NUMA 節(jié)點(diǎn))

  • GPU:RTX 4090D(24G VRAM)

  • 內(nèi)存:標(biāo)準(zhǔn) DDR5-4800 服務(wù)器 DRAM(1 TB)

  • CUDA 12.1 或更高版本

RTX 4090D + 雙路 Xeon Gold 實(shí)測數(shù)據(jù):

任務(wù)類型

KTrans V0.3 (6 位專家)

KTrans V0.2 (8 位專家)

llama.cpp (FP16)

8K 上下文預(yù)填充

207.20 tokens/s

195.62 tokens/s

7.43 tokens/s

短文本解碼

13.69 tokens/s

8.73 tokens/s

4.51 tokens/s

長序列吞吐量

19.8GB / 秒

15.2GB / 秒

4.8GB / 秒

對(duì)于 Linux-x86_64 系統(tǒng),您需要 gcc、g++ 和 cmake 使用以下命令進(jìn)行安裝:

sudo apt-get updatesudo apt-get install gcc g++ cmake ninja-build

這里強(qiáng)烈建議使用 Conda 創(chuàng)建一個(gè)包含 Python 3.11 的虛擬環(huán)境。使用以下命令創(chuàng)建并激活環(huán)境:

conda create --name ktransformers python=3.11conda activate ktransformers # 您可能需要運(yùn)行 ‘conda init’

安裝 PyTorch、packaging、ninja、cpufeature 和 numpy:

pip install torch packaging ninja cpufeature numpy

安裝 KTransformers

pip install ktransformers --no-build-isolation

快速使用

python -m ktransformers.local_chat --model_path <your model path> --gguf_path <your gguf path>  --prompt_file <your prompt txt file>  --cpu_infer 65 --max_new_tokens 1000<when you see chat, then press enter to load the text prompt_file>

參數(shù)解釋:

  • model_path:模型路徑。gguf_path:  gguf 文件路徑。

  • prompt_file:包含提示文本的文件路徑。

  • cpu_infer 65:指定用于推理的 CPU 核心數(shù)。如果使用雙路 CPU,因此設(shè)置為 65。

  • max_new_tokens 1000:設(shè)置生成 token 的最大數(shù)量。

參考資料

  • GitHub 地址:https://github.com/ kvcache-ai / ktransformers

  • 本地化 671B DeepSeek-Coder-V3 / R1 教程:https://github.com/ kvcache-ai / ktransformers / blob / main / doc / en / DeepseekR1_V3_tutorial.md


關(guān)于我們
IC設(shè)計(jì)服務(wù)
產(chǎn)品展示
新聞動(dòng)態(tài)
聯(lián)系我們

電話:

028-85244883

Copyright ? 2017-2025 成都銥通科技 版權(quán)所有備案號(hào):蜀ICP備2021013740號(hào)