广西地球物理学会

电子邮箱

密码

注册 忘记密码?
DeepSeek V4深夜泄密:CPU当GPU用,成本暴降90%?
来源: | 作者:柏舟科技 | 发布时间: 2026-01-14 | 82 次浏览 | 分享到:


2026-01-14 06:00·柏舟科技

作品声明:个人观点、仅供参考

引言

春节前夜,DeepSeek突然放出一篇署名梁文锋的论文——千亿参数模型竟能靠CPU内存跑起来,GPU只负责“动脑子”?部署成本直降90%!这不只是技术突破,更是对英伟达、闭源大厂甚至AI工程师岗位的一次精准爆破。硅谷工程师为何集体失眠?一文说透。


一、凌晨空投:一篇论文炸醒整个AI圈

2026年1月13日凌晨,DeepSeek在GitHub悄悄上传了一篇新论文:《Conditional Memory via Scalable Lookup》。

署名栏里,赫然写着梁文锋。


这不是普通更新。就在前一天,The Information爆料:DeepSeek V4将在春节前后发布,代码能力已碾压GPT-4和Claude 3.5。

而这篇论文,很可能就是V4的“骨架”。


核心思想就一句:把模型里“死记硬背”的知识抽出来,扔进一个超大词典;GPU只干推理,别再干查字典的活了。


听起来像复古N-Gram?错。

DeepSeek用哈希+门控机制,把查询复杂度压到O(1),比MoE快一个数量级。


最炸的是实验数据:


1000亿参数的“知识库”塞进CPU内存

GPU只算推理,吞吐量损失不到3%

原本要8张A100的模型,现在1张消费卡 + 几根64G内存条就能跑

部署成本直接砍掉90%!

二、大模型有多“蠢”?它在用奥数解小学题

你问ChatGPT:“莎士比亚全名是什么?”

它不会“想起”答案,而是启动1750亿参数,层层计算,从概率海里“猜”出“William Shakespeare”。


这就像让程序员写import numpy as np时,每次都从编译原理重新推导一遍。


DeepSeek论文举了个例子:

输入“Diana, Princess of Wales”——


第2层只认出“Wales”

第3层拼出“Princess of Wales”

第6层才确认是“戴安娜王妃”

一个查字典的事,硬做成奥数题。

更糟的是,这些“垃圾知识”占满参数,导致模型在长代码任务中越练越糊涂。


Engram要终结的,正是这种“All in One”的暴力美学:


记忆归记忆,推理归推理——各干各的,效率翻倍。


三、技术拆解:Engram怎么给AI装“超级字典”?

1. 分词压缩:先瘦身

标准分词器会把“Apple”和“apple”当两个词。

Engram通过规范化处理,词表减少23%,N-Gram覆盖效率飙升。


2. 多头哈希:秒查不冲突

把输入切片成N-Gram(如“the Great”),用4个独立哈希函数并行映射到巨型嵌入表。

冲突?概率低到可忽略。


3. 上下文门控:智能过滤

检索结果不一定靠谱。Engram用当前隐藏状态当“质检员”,动态打分。

不合上下文?门控值逼近0,直接屏蔽噪声。

热力图显示:遇到“Bucephalus”(亚历山大大帝的战马)时,激活峰值爆表——模型精准识别了固定实体。


4. 查算分离:CPU和GPU并行跑

传统MoE必须算完一层才能决定下一路由。

Engram的检索只依赖输入序列,一进来就知道要查哪些地址——

CPU取数据 + GPU算推理,完全重叠,延迟被掩盖。


成本对比:50倍差距!

全放GPU:80G显存 ≈ 6–8万美元(8张A100)

知识放CPU内存:4根64G内存条 ≈ 1200美元

冷知识还能扔SSD,理论上支持万亿参数外挂!

四、实锤来了:V4性能传闻有据可依

The Information说V4在“长代码”和“逻辑条理”上质变?

Engram论文数据完美印证:


任务类型


提升幅度


MMLU(知识)


+3.4分


CMMLU(中文知识)


+4.0分


BigBench Hard(推理)


+5.0分


HumanEval(代码)


+3.0分


RULER(32k长文本)


准确率从84.2% → 97.0%


为什么?

因为浅层搞定记忆,深层专注推理。

代码80%是固定语法,20%才是创新逻辑——Engram干掉80%,模型自然“智商暴涨”。


内部消息:V4训练时,Engram词表可能扩至2000亿参数,塞满代码片段、数学公式、经典算法。

所以它不是“算”长提示,是在“查”!


五、行业核弹:谁该睡不着觉?

第一刀:砍向英伟达

过去逻辑:显存越大越贵

现在:CPU内存也能跑大模型 → HBM稀缺性崩塌

2025年中国AI芯片采购120亿美元,若30%转向CPU方案,英伟达直接损失36亿订单

第二刀:砍向闭源巨头

OpenAI、Anthropic靠参数规模筑墙?

Engram让中小企业用1/10成本部署百亿模型

某律所测试:64G内存塞500万判例,法律咨询准确率68% → 89%,成本仅GPT-4 API的1/20

第三刀:砍向AI工程师

以前:调参如炼丹

现在:编词典才是核心

新岗位崛起:“知识架构师”——懂业务、会切N-Gram、能把专业知识喂进内存

普通开发者怎么办?三件事:

1️⃣ 别囤A100了,买内存条和SSD

2️⃣ 学哈希算法——这是新护城河

3️⃣ 关注CPU选型:AMD EPYC支持2TB内存,性价比吊打A100


六、V4预测:春节到底会放什么?

DeepSeek选春节发布,算盘打得响:


开发者放假,讨论自发裂变,传播成本≈0

如果Engram是V4核心,大胆预测:


✅ 架构:MoE + Engram 双稀疏,总参破万亿,激活控在500亿内

✅ 部署:开源即支持CPU内存扩展,附标准词表+迁移工具

✅ 性能:代码对标Claude 3.5,推理接近GPT-4,成本仅1/10

✅ 策略:不卷性能榜,主打“性价比榜”,叫板OpenAI o3-mini

⚠️ 但也有风险:


工程化难题:哈希冲突、CPU-GPU同步开销、词表更新机制

某国产大模型评估:batch size > 64 时,吞吐掉15%——商业部署硬伤

七、终极答案:硅谷工程师为何失眠?

Engram不是复古,而是打开了AI架构的第三扇门:


第一扇:Transformer —— “All you need is Attention”

第二扇:MoE —— “术业有专攻”

第三扇:Engram —— “该查查,该算算”

这扇门通向:


✨ 模型不再越练越蠢:知识无限扩展,推理始终清晰

✨ 摆脱英伟达霸权:CPU、内存、SSD都能成为AI基础设施

硅谷工程师失眠,不是怕被超越,

而是突然意识到:

AI的摩尔定律,可能要从芯片,转向架构了。


结尾

 Level 1:你觉得Engram是技术复古还是真创新?(评论区扣 A 或 B)

 Level 2:你用过大模型API吗?成本是不是让你肉疼?

 Level 3:CPU内存替代GPU显存,你信吗?瓶颈在哪?

 Level 4:如果让你设计Engram词表,你会塞什么知识?

⚫ Level 5:看完文章,你会立刻去学哈希算法吗?为什么?