DeepSeek V4深夜泄密：CPU当GPU用，成本暴降90%？

首页 >> 科普园地 >> 前沿科技 >> DeepSeek V4深夜泄密：CPU当GPU用，成本暴降90%？

来源: | 作者:柏舟科技 | 发布时间: 2026-01-14 | 502 次浏览 | 分享到:

2026-01-14 06:00·柏舟科技

作品声明：个人观点、仅供参考

引言

春节前夜，DeepSeek突然放出一篇署名梁文锋的论文——千亿参数模型竟能靠CPU内存跑起来，GPU只负责“动脑子”？部署成本直降90%！这不只是技术突破，更是对英伟达、闭源大厂甚至AI工程师岗位的一次精准爆破。硅谷工程师为何集体失眠？一文说透。

一、凌晨空投：一篇论文炸醒整个AI圈

2026年1月13日凌晨，DeepSeek在GitHub悄悄上传了一篇新论文：《Conditional Memory via Scalable Lookup》。

署名栏里，赫然写着梁文锋。

这不是普通更新。就在前一天，The Information爆料：DeepSeek V4将在春节前后发布，代码能力已碾压GPT-4和Claude 3.5。

而这篇论文，很可能就是V4的“骨架”。

核心思想就一句：把模型里“死记硬背”的知识抽出来，扔进一个超大词典；GPU只干推理，别再干查字典的活了。

听起来像复古N-Gram？错。

DeepSeek用哈希+门控机制，把查询复杂度压到O(1)，比MoE快一个数量级。

最炸的是实验数据：

1000亿参数的“知识库”塞进CPU内存

GPU只算推理，吞吐量损失不到3%

原本要8张A100的模型，现在1张消费卡 + 几根64G内存条就能跑

部署成本直接砍掉90%！

二、大模型有多“蠢”？它在用奥数解小学题

你问ChatGPT：“莎士比亚全名是什么？”

它不会“想起”答案，而是启动1750亿参数，层层计算，从概率海里“猜”出“William Shakespeare”。

这就像让程序员写import numpy as np时，每次都从编译原理重新推导一遍。

DeepSeek论文举了个例子：

输入“Diana, Princess of Wales”——

第2层只认出“Wales”

第3层拼出“Princess of Wales”

第6层才确认是“戴安娜王妃”

一个查字典的事，硬做成奥数题。

更糟的是，这些“垃圾知识”占满参数，导致模型在长代码任务中越练越糊涂。

Engram要终结的，正是这种“All in One”的暴力美学：

记忆归记忆，推理归推理——各干各的，效率翻倍。

三、技术拆解：Engram怎么给AI装“超级字典”？

1. 分词压缩：先瘦身

标准分词器会把“Apple”和“apple”当两个词。

Engram通过规范化处理，词表减少23%，N-Gram覆盖效率飙升。

2. 多头哈希：秒查不冲突

把输入切片成N-Gram（如“the Great”），用4个独立哈希函数并行映射到巨型嵌入表。

冲突？概率低到可忽略。

3. 上下文门控：智能过滤

检索结果不一定靠谱。Engram用当前隐藏状态当“质检员”，动态打分。

不合上下文？门控值逼近0，直接屏蔽噪声。

热力图显示：遇到“Bucephalus”（亚历山大大帝的战马）时，激活峰值爆表——模型精准识别了固定实体。

4. 查算分离：CPU和GPU并行跑

传统MoE必须算完一层才能决定下一路由。

Engram的检索只依赖输入序列，一进来就知道要查哪些地址——

CPU取数据 + GPU算推理，完全重叠，延迟被掩盖。

成本对比：50倍差距！

全放GPU：80G显存 ≈ 6–8万美元（8张A100）

知识放CPU内存：4根64G内存条 ≈ 1200美元

冷知识还能扔SSD，理论上支持万亿参数外挂！

四、实锤来了：V4性能传闻有据可依

The Information说V4在“长代码”和“逻辑条理”上质变？

Engram论文数据完美印证：

任务类型

提升幅度

MMLU（知识）

+3.4分

CMMLU（中文知识）

+4.0分

BigBench Hard（推理）

+5.0分

HumanEval（代码）

+3.0分

RULER（32k长文本）

准确率从84.2% → 97.0%

为什么？

因为浅层搞定记忆，深层专注推理。

代码80%是固定语法，20%才是创新逻辑——Engram干掉80%，模型自然“智商暴涨”。

内部消息：V4训练时，Engram词表可能扩至2000亿参数，塞满代码片段、数学公式、经典算法。

所以它不是“算”长提示，是在“查”！

五、行业核弹：谁该睡不着觉？

第一刀：砍向英伟达

过去逻辑：显存越大越贵

现在：CPU内存也能跑大模型 → HBM稀缺性崩塌

2025年中国AI芯片采购120亿美元，若30%转向CPU方案，英伟达直接损失36亿订单

第二刀：砍向闭源巨头

OpenAI、Anthropic靠参数规模筑墙？

Engram让中小企业用1/10成本部署百亿模型

某律所测试：64G内存塞500万判例，法律咨询准确率68% → 89%，成本仅GPT-4 API的1/20

第三刀：砍向AI工程师

以前：调参如炼丹

现在：编词典才是核心

新岗位崛起：“知识架构师”——懂业务、会切N-Gram、能把专业知识喂进内存

普通开发者怎么办？三件事：

1️⃣ 别囤A100了，买内存条和SSD

2️⃣ 学哈希算法——这是新护城河

3️⃣ 关注CPU选型：AMD EPYC支持2TB内存，性价比吊打A100

六、V4预测：春节到底会放什么？

DeepSeek选春节发布，算盘打得响：

开发者放假，讨论自发裂变，传播成本≈0

如果Engram是V4核心，大胆预测：

✅ 架构：MoE + Engram 双稀疏，总参破万亿，激活控在500亿内

✅ 部署：开源即支持CPU内存扩展，附标准词表+迁移工具

✅ 性能：代码对标Claude 3.5，推理接近GPT-4，成本仅1/10

✅ 策略：不卷性能榜，主打“性价比榜”，叫板OpenAI o3-mini

⚠️ 但也有风险：

工程化难题：哈希冲突、CPU-GPU同步开销、词表更新机制

某国产大模型评估：batch size > 64 时，吞吐掉15%——商业部署硬伤

七、终极答案：硅谷工程师为何失眠？

Engram不是复古，而是打开了AI架构的第三扇门：

第一扇：Transformer —— “All you need is Attention”

第二扇：MoE —— “术业有专攻”

第三扇：Engram —— “该查查，该算算”

这扇门通向：

✨ 模型不再越练越蠢：知识无限扩展，推理始终清晰

✨ 摆脱英伟达霸权：CPU、内存、SSD都能成为AI基础设施

硅谷工程师失眠，不是怕被超越，

而是突然意识到：

AI的摩尔定律，可能要从芯片，转向架构了。

结尾

Level 1：你觉得Engram是技术复古还是真创新？（评论区扣 A 或 B）

Level 2：你用过大模型API吗？成本是不是让你肉疼？

Level 3：CPU内存替代GPU显存，你信吗？瓶颈在哪？

Level 4：如果让你设计Engram词表，你会塞什么知识？

⚫ Level 5：看完文章，你会立刻去学哈希算法吗？为什么？

上一篇： AI到底是个啥？

下一篇：党建业务相融合携手......

geophysical

广西地球物理学会

Guangxi Geophysical Society

地址：广西南宁市青秀区建政路34号大院邮编：530023 电子邮箱：GXGS2000@163.com

电子邮箱

密码