中国拒绝购买英伟达H200与H20,即使美国政府给许可证也不买。有促进国产化的考虑,但也说明GPU并不是特别紧缺,算力不足相对容易解决。只要中国每个月能生产2万片7nm晶圆,即使良率低至30%,一片晶圆上也有100个好的“祼芯片”(die)。这就是每月200万个算力芯片,一年2000万个可以估到。这对应着海量的算力资源,可以办不少事了。
但是,现在AI业界的问题,已经不是“算力约束”,而是“存储约束”!这有深刻的技术背景,主要是大模型的规模实在是太大了,远超过去想象。
ChatGPT刚出来时参数量是1750亿,DeepSeek-V3参数量是6710亿个,刚出的V4是1.6T(1.6万亿)。有的美国前沿大模型如Claude Mythos,据传参数量是10万亿级别。不说别的,光是模型的权重文件就有数百GB至TB级别。还有多个版本、多个精度,同一模型同时维护训练的FP32版本,推理时的BF16/FP16版本,在量化部署时又是INT8/INT4等多个变体,存储需求倍增。
算力不足,有一个大招是MoE架构,以前是所有参数全部激活参与计算,千亿级别;用MoE就可以把问题让一个“专家”来处理,几十亿级别。但是MoE架构减不了存储,所有专家的权重即使不激活,也必须常驻存储。
另外一个存储需求,是大模型训练素材的大幅增长。原来的训练,10多T的语料数据,包含人类全部文本知识,已经很吓人了。但现在的素材规模,已经是1000T这个级别了。一个是多模态,视频、图像、音频数据,比文本要多占很多存储。再一个是语料清洗,现在很讲究素材质量,就要反复不断清洗,过滤、去重、毒性检测、标注,这会产生很多中间存储需求,扩大了3-10倍的存储需求。再一个是“合成数据”,AI自己生产“思维链”之类的数据,“蒸馏”也会产生海量数据,现在更厉害的是Agent多轮调用,会产生很多中间反复调用大模型的上下文,都需要存储。
还有一个专业一些的存储需求:KV-Cache,它在推理阶段是“存储黑洞”,狂吃存储。大模型每步计算产生一个token,输入是越来越长的上下文(输出会被当成新的输入,加在原来的输入上),大量计算是重复的(如原来的输入相关的计算就是重复的),为了加速,就把大量数据放在KV-Cache里,直接访问就行了。KV-Cache存储需求爆发,因为它和上下文长度成正比,现在讲究1M之类的上下文,原来128K就是很长的。再一个,使用推理应用的人多了,一个大模型几千几万人同时使用,都要分配KV-Cache,这就是“并发”产生了更多存储需求。
还有一个存储需求与训练细节有关,GPU集群训练断点保存。GPU数量一多,几千个上万个,总会有个别出错了,训练就得中断。但训练成果必须保存下来,这种保存并不简单,会产生许多倍的存储需求。
还有AI大模型相关的数据库改造。如RAG(检索增强生成),需要把企业级知识库搞成数亿至数十亿条向量,存储于专用向量数据库。每条向量附加元数据与原始文本,存储开销远超原始数据。还有多模态内容生成,互联网上视频和图片吃存储速度很快。
以上解释了存储需求的爆发。悲剧的是,高端存储生产比GPU生产要更为专业、集中。GPU也缺,但生产技术相对容易扩产,即使制程不够先进,也有办法通过先进封装增强总算力。而HBM3以上的高端存储,只有SK 海力士、三星、美光能生产。TSV(硅通孔)、3D 堆叠 、先进封装,几种技术难度非常高,需要专门的芯片制造设备,扩产时间周期很长。而不同性能的存储带宽之类的表现差异太大,不能降级用十分之一带宽、速率的存储。
这些技术原理,让GPU需求是线性增长,随着产能增加,甚至有过剩的说法。而存储需求是超线性、指数增长的,目前产能又远远不足,暂时看不到解决需求的办法。所以高端存储价格出现了可怕的上涨。而低端存储价格涨幅甚至更大,有炒作因素,因为产能被调去生产更赚钱的高端存储,低端存储商家囤积人为紧缺了。
最近韩国和美国一些存储股成为全球最热门的股票,涨幅几十倍,就是这个技术原因。韩国存储芯片在全球占优,等到了好时候,也是打败日本和欧洲存储企业的“战果”,多年来拼命卷死对手,在这一下起到了最大的作用。