4月24日,DeepSeek发布了新模型V4,以开源、低价、高性能的特点对市场产生了冲击。智谱与MiniMax的市值一度分别下跌超过10%和12%,有网友戏称DeepSeek是国产大模型最严厉的父亲。
无论是新模型V4还是近期DeepSeek的融资消息,都给智谱和MiniMax的股价带来了较大波动。据报道,DeepSeek最新估值达到3000亿元,这一数字得到了一位内部人士的确认。当前真正困扰智谱和MiniMax的是年初龙虾火爆后带来的算力荒。
一位头部大厂算法人员表示,在同一个项目里改几行代码,AI需要读取整个系统的上下文,这导致单次任务的Token消耗量大幅增加。去年底同样花费10元能完成的任务,今年账单上变成了近20元。今年以来,智谱API价格连涨三次,GLM-5.1发布后Token价格再度上调10%,外版Coding Plan月付价格几乎翻倍,第一季度智谱的API定价累计上调约83%。MiniMax则将之前的Coding Plan全面升级为Token Plan,新增免费额度减少。
阿里和腾讯也做出了类似调整,都将Coding Plan下架换成Token Plan。4月,阿里云四天内连发三条产品涨价公告,部分项目涨幅最高达34%。更早的3月,腾讯云部分模型价格涨幅高达463%。这意味着即使成为高阶会员,也无法再享受大量Token的优惠。
智谱CEO张鹏在内部会议上表示,未来12个月最大的问题是算力,不是需求。为了在有限资源下求生存,MiniMax创始人闫俊杰宣布,截至2月份,M2系列模型的百万Token推理成本已较2025年12月下降了超50%。
摩根大通最近将智谱与MiniMax列为“中国AI采用周期的结构性受益者”,面对同样的算力挤兑,两家公司交出了不同的答卷。春节以来,开发者社区的投诉不断,Kimi自2月起高峰期常现算力不足,智谱更是遭遇多轮危机。2月GLM-5上线后调用量暴增,API排队蔓延,部分开发者的长链代码生成任务直接中断。智谱不得不公开致歉,并开启全额退款通道。
4月12日,MiniMax正式开源M2.7模型,首日完成华为昇腾、摩尔线程、沐曦等多款国产GPU的适配,通过MoE架构优化显著降低了推理成本。尽管如此,用户们仍抱怨MiniMax服务器繁忙、连续掉线、限流等问题。
这种算力短缺的根源在于需求端和供给端的同时失控。需求端,OpenClaw等智能体应用将Token消耗量推高了不止一个数量级。传统对话场景一篇文章消耗几千Token,而一个典型的Openclaw自动化任务,其Token消耗量是传统对话场景的3至5倍。根据智谱发布的2025年度财报,公司全年实现营业收入7.24亿元,同比增长131.9%,但年内亏损达到47.18亿元,同比扩大59.5%。
供给端则被死死卡住。2025年5月,美国商务部升级芯片出口限制,英伟达H20被纳入禁售名单。虽然后续H20有望重返中国市场,但配额大幅缩减。据SemiAnalysis数据,H100一年期租赁价格从2025年10月的约1.70美元/小时/GPU涨至2026年3月的约2.35美元/小时,涨幅近40%。
据中国信通院数据,2025年英伟达在中国数据中心市场的份额已从2022年的95%下滑至50%,而国产AI芯片份额从12%增长至25%。华为昇腾以约81.2万块的出货量位居国产第一,市场份额约49.2%,但仍难以满足爆发式增长的算力需求。
这种供给失衡导致Token市场出现分化。低成本“闲聊型”Token价格一降再降,而“黄金型”Token——长链推理、复杂代码生成、企业私有化部署,价格却一路走高。智谱的API定价去年以来已累计提价83%,市场需求非但没有减弱,API调用量反而增长了400%。
智谱选择涨价筛选客户,保利润。张鹏表示,低价竞争不利于行业发展,上调API价格是成本变化的结果。而MiniMax则走了一条完全相反的路线,开源、优化、抢规模。2025年10月以来,MiniMax完成了M2、M2.1、M2.5和M2.7四代模型迭代。2026年4月12日,M2.7在全球开源,极大降低了推理成本。
MiniMax已经取得了成果,模型调用量爆发,M2系列文本模型单日Token消耗量在2026年前两个月较2025年12月激增6倍以上。但这也是一场危险的赌注,MiniMax打的是“以规模换生态”的算盘,希望通过增值服务完成商业闭环。如果开源生态变现进度赶不上研发投入的增长,这条路可能被高成本堵死。
破局关键在于国产芯片和时间窗口。2025年度智谱研发开支为31.8亿元,算力成本占研发总开支的七成以上,但仍无法满足需求。尽管智谱已完成与华为昇腾、寒武纪等7大国产芯片的深度优化,整体算力缺口依然巨大。
海外巨头同样承受着巨大算力紧缺的压力。OpenAI放弃Sora视频生成应用,将算力集中到核心模型开发中。Anthropic用锁定AWS旗下Trainium芯片高达5吉瓦的算力资源来换取客户稳定性。算力的“绞索”正在勒紧每一位玩家的脖颈。真正的变数在于国产芯片的时间窗口。
2025年,英伟达在中国市场的AI加速卡占有率从2022年的约95%大幅下滑到约55%。国产AI加速卡总出货量约165万张,市占率约41%。华为昇腾以约81.2万张的出货量断层领跑,占国产份额约49.2%。阿里平头哥、百度昆仑芯、寒武纪、海光信息紧随其后。
在智谱发布的GLM-5中,华为昇腾、摩尔线程、寒武纪等国产芯片平台已完成深度推理适配与算子级优化。2026年3月,华为发布了搭载全新昇腾950PR的AI训练推理加速卡Atlas 350,性能据估计可达英伟达H20的近三倍,并且对CUDA体系的兼容性已大幅提升。字节跳动、阿里巴巴等大厂都计划采用这款芯片。
未来的锚点在于昇腾950PR能否在实际部署中兑现承诺,国产芯片是否能在2026年实现大规模、稳定的ToB商用。假设国产芯片能做到大规模稳定商用,让算力成本骤降,届时低价、规模化的路径无疑将占据上风。留给国内大模型厂商的问题已然清晰,那就是能否在国产算力芯片全面成熟之前,抢先跑通一条脱离英伟达依赖独立发展的路径。