2026年3月27日,Zhipu AI悄然对其开源模型系列进行了更新。他们声称,新的GLM-5.1在编码测试中的表现相当于Claude Opus 4.6的94.6%,这一成绩比仅在六周前发布的GLM-5提升了28%。
开源技术的发展势头丝毫没有放缓,反而正在加速。
然而,大多数为这些进展欢呼的团队实际上并无法运行这些模型。因为自行部署GLM-5需要大约1,490GB的内存空间。
在测试成绩上,开源AI与商业AI之间的差距确实在缩小,但“开源”和“易用”这两个词并不意味着相同的事情。如今,将它们视为同义词无疑是一个极其严重的错误。
接下来,我们将重点分析那些重要的测试指标、新闻稿中往往被忽略的基础设施实际情况,以及那些急需推出产品的团队应该参考的决策框架。
本次对比的核心模型是GPT-5.4——这是OpenAI于2026年3月5日推出的、专为专业工作设计的最先进模型;另一款模型则是GLM-5,这款由中国的Zhipu AI开发的模型拥有7440亿个参数,于2月11日正式发布。
GPT-5.4代表了当前商业AI技术的最高水平:它将编码能力和推理能力整合到一个系统中,具备一百万个token的上下文处理能力,能够直接在计算机上运行,并且依托OpenAI强大的平台支持。
而GLM-5则代表着不同的方向:它是第一个在智能指数测试中突破50分的开源模型,整个训练过程都是在中国的本土硬件上完成的,并且根据MIT许可证可以免费使用。
现在的问题已经从“哪个模型的测试成绩更高”转变为“这两种模型之间的差距对那些需要做出实际技术决策的团队意味着什么”。
我们将会讨论的内容:
GLM-5所取得的成就
GLM-5是一款拥有7440亿个参数的模型,在每次前向计算过程中会有400亿个参数被激活。它采用了稀疏MoE架构,并且经过了28.5万亿个token的数据训练。
这款模型由清华大学的衍生企业Zhipu AI于2026年2月11日发布。该公司已在香港完成IPO,在最新一轮融资中筹集到了5.58亿美元。GLM-5采用MIT许可证进行授权,因此可以无限制地用于商业用途。
人工分析智能指数v4.0是一种独立的评测标准,它综合了涵盖代理任务、编程、科学推理和通用知识在内的10项评估内容。
与针对单一任务的评测标准不同,这一指标旨在衡量模型在人们实际要求人工智能完成的各类任务中的整体能力。各项评分都经过了标准化处理,因此即便是最先进的模型,其得分也通常在50到57分之间,这样就能确保各模型之间的差异具有实际意义。
GLM-5在这项指数中的得分为50分,这是首个突破这一门槛的开放源代码模型。而GLM-4.7的得分为42分。其得分提升了8分,这主要得益于其在代理任务表现上的改进,以及幻觉现象发生频率下降了56个百分点。
在由加州大学伯克利分校推出的Arena(前身为LMArena)这一基于人类偏好的评测体系中,GLM-5在文本任务和编程任务中均位列开放源代码模型中的第一名,其表现与Claude Opus 4.5及Gemini 3 Pro相当。需要注意的是,这个排名是基于人类的偏好而非自动化的评测结果。
经过SWE-bench验证后,GLM-5的得分为77.8%,这一分数在所有开源模型中名列第一。仅有Claude Opus 4.6(得分为80.8%)和GPT-5.2(得分为80.0%)的得分高于它。而在“人类最后的考试”这一评测中,当启用相关工具后,GLM-5的得分为50.4分,超过了GPT-5.2的45.5分。
由此可见,GLM-5确实具有很强的竞争力。但它的竞争优势具体体现在哪些方面呢?智能指数所反映的差距可以说明一部分问题,而在某些特定的评测项目中,GPT-5.4仍然占据优势。
GPT-5.4仍具有优势的领域
这种差距并非虚构的。在人工分析智能指数中,GPT-5.4的得分为57分,而GLM-5的得分为50分,两者都与Gemini 3.1 Pro Preview并列第1名,在总共427个模型中名列前茅。
“Terminal-Bench”这一测试标准能够最直观地反映模型的实际表现。它用于评估模型在真实的Shell环境中完成各种终端任务的能力,这些任务包括文件编辑、Git操作、构建系统管理、持续集成/持续交付流程的运行以及系统调试等。
与那些仅测试模型是否能够独立编写代码的基准测试不同,“Terminal-Bench”旨在检验模型是否能够像开发人员一样来操作计算机。
根据OpenAI的API文档,GPT-5.4在这项测试中的得分率为75.1%,这一成绩比第二名的专有模型高出9.7个百分点。如果你的团队从事DevOps工作、使用基础设施即代码技术,或者进行持续集成/持续交付相关的调试任务,那么这个基准测试结果与你们的实际工作内容息息相关。
“上下文窗口”也是GPT-5.4相比GLM-5的一个显著优势。GPT-5.4能够处理105万个标记,而GLM-5的最大处理能力仅为20万个标记。对于那些需要处理庞大代码库或进行多文档研究的场景来说,这种差异并非仅仅是规格上的区别,而是功能上的差距。
模型能够直接与桌面软件交互也是它的另一个优势。通过截图、鼠标操作和键盘输入,GPT-5.4可以无需任何额外的插件或封装层就能直接与各类软件进行交互。
GPT-5.4是OpenAI首个具备这种功能的通用型模型,而GLM-5则仅支持文本处理,不支持图像输入。因此,如果你需要开发能够与用户界面交互的智能体,或者需要进行多模态推理,那么GPT-5.4才是你的理想选择。
OpenAI还声称,在那些依赖大量工具的工作流程中,使用GPT-5.4可以减少47%的标记使用量。对于那些按标记数量付费的用户来说,这一优势无疑能够显著提升效率。
从价格角度来看,GPT-5.4的费用为每百万输入2.50美元,每百万输出15.00美元,其价格是GLM-5的API价格的4.2倍。不过,当输入标记数量超过272,000个时,GPT-5.4的价格会上涨到每百万输入5.00美元,这对于那些需要运行大规模智能体的团队来说无疑是一笔不小的负担。
还有一个更严重的问题是,这些基准测试数据并没有反映出来,而那些急于采用开源技术的团队很可能会因此遇到麻烦。
“开放”并不意味着“可访问”
MIT许可证确实是真实存在的,模型的权重数据也可以下载,但要想让GLM-5在BF16精度下正常运行,至少需要1,490GB的内存。而对于FP8精度的模型来说,推荐的部署方案是需要使用八块H200 GPU,每块GPU拥有141GB的内存——这显然不是一个单台工作站能够承担的成本。
如果用美元来计算的话,一台二手或租赁的H100 GPU的价格大约在15,000到25,000美元之间。而八块H200S GPU显然不是初创企业能够负担得起的。对于大多数实际应用场景来说,自行部署GLM-5所需的基础设施成本,要么与直接使用OpenAI API的成本相当,要么甚至更高。
还有一种解决方案就是采用量化技术。量化是一种通过降低模型权重的数值精度来减少其内存占用量的方法——例如,将权重从16位压缩为2位。这种技术可以让大型模型在性能较低的硬件上运行,但相应的也会牺牲一定的准确性。
Unsloth采用的2位量化技术将内存使用量降到了241GB,这个规模完全适合Mac机器所拥有的256GB统一内存空间。然而,量化处理会降低模型质量。在SWE测试中获得的77.8%分值是针对全精度模型而言的;而对于经过量化处理的模型来说,其得分肯定会更低。
一个更为现实的解决方案是使用托管型的GLM-5 API。DeepInfra收取每百万输入token 0.80美元的费用,而Novita则收取1.00美元。虽然你可以不购买硬件设备而直接使用这些API,但这样一来你就无法实现模型的自主部署了。你只是在使用一种价格更低的解决方案而已,而数据主权、隐私保护以及对特定供应商的依赖等问题也就随之消失了。
到了2026年,“开放权限”这一概念越来越多地意味着向那些拥有GPU集群的企业开放、向拥有云服务资源的研究人员开放,也意味着向那些愿意接受量化处理带来的性能折中方案的团队开放。但它并不意味着向那些只想避免支付API使用费用的普通开发者开放。
这种矛盾确实存在:虽然权限是开放的,但实际访问却受到限制。这并不是说没有选择余地,只是意味着在做出选择时必须坦诚面对各种因素。
正确的问题不应该是“哪种模型更胜一筹”
| 通过API使用的GLM-5 | GPT-5.4 | 自主部署的GLM-5 | |
|---|---|---|---|
| 适用场景 | 成本敏感,且上下文长度不超过200,000个token | 终端设备使用或需要处理较长上下文的场景 | 拥有现有GPU基础设施的受监管环境 |
| 定价 | 每百万输入token 0.80美元(DeepInfra) | 每百万输入token 2.50美元 | 仅包含硬件成本 |
| 上下文容量 | 200,000个token | 1.05百万个token | 200,000个token |
| 是否支持图像输入 | 不支持 | 支持 | 不支持 |
| 不支持 | 不支持 | 支持 | |
| 是否需要自主部署 | 不需要 | 不需要 | 需要 |
选择哪种模型,完全取决于你的团队试图优化什么目标。
当成本效率是首要考虑因素时,当数据存储位置对中文模型的使用没有影响时,当你的工作流程不需要多模态输入或图像处理时,以及当所需处理的上下文长度不超过200,000个token时,那么通过API使用的GLM-5就是最佳选择。
如果你想参与开放权限相关的研究工作或为这些研究做出贡献,GLM-5 API也是一个非常合适的选择。它的使用成本很低,对于那些更看重成本效益的人来说,这个选项几乎无可替代。
而当你的工作流程主要涉及终端设备操作或需要处理较长上下文时,当上下文长度超过200,000个token且保持一致性非常重要时,当你需要多模态输入数据时,或者当你的团队已经深入融入OpenAI生态体系时,GPT-5.4才是更合适的选择。
如果在大规模应用中保证响应的一致性是绝对必要的,那么为此付出的额外成本确实是合理的;但对于某些特定的工作负载来说,这种一致性和功能优势确实值得这个代价。
只有当你的组织已经拥有GPU集群基础设施,或者有足够的预算来建立这样的基础设施;当数据主权方面的问题已经被明确界定且是现实存在的而非假设性的;以及当你具备管理模型部署、更新和监控所需的机器学习基础设施能力时,才应该考虑自行托管GLM-5模型。毕竟,托管一个包含7440亿个参数的模型绝非一个可以在周末完成的项目。
从成本效益的角度来看,进行这样的计算是值得的。通过DeepInfra平台,如果每百万个代币的成本约为0.80美元,那么一个团队每月需要处理超过10亿个代币,才能让自行托管15,000块H100硬件所带来的收益开始显现。然而大多数团队并没有达到这样的处理量,而那些确实达到了这一处理量的团队,很可能已经具备了相应的基础设施。
有了这个决策框架之后,问题就变成了一个更宏观的问题:这一发展对各个团队来说,意味着他们应该如何看待开源技术与专有技术在人工智能领域的应用呢?
这一时刻的意义
开放源代码模型与专有模型之间的差距已经消失。这一变化是真实存在的、意义重大的,同时也是具有历史意义的。在2023年底,开放源代码模型与专有模型在MMLU测试中的得分差距为17.5分,而现在这一差距已经实际上为零了。GLM-5在智能指数中获得了50分的成绩,它是第一个达到这一分数的开放源代码模型,因此这一成就确实具有里程碑式的意义。
但这种差距的缩小方式与它本身被缩小这一事实同样重要。这一差距是通过诸如DSA稀疏注意力机制、MoE效率优化以及异步强化学习等技术创新来实现的,而不是通过普及计算资源来实现的。
那些弥补了这一差距的模型依然体积庞大,完全部署这些模型所需的成本仍然很高,而且这些模型仍然主要由拥有强大资金支持的中国研究机构所开发。
现在,专有技术的优势不再在于它们拥有更好的模型,而在于它们拥有更完善的平台、更健全的生态系统、更优化的上下文处理能力、更优质的企业支持服务,以及无需GPU集群即可进行部署的能力。虽然这种优势已经减弱,但它依然存在。
对于2026年来说,问题不再是在开源技术和专有技术之间做出选择,而是要弄清楚:为你所支付的高额费用,究竟能带来什么价值?对于某些团队来说,答案可能会发生变化;但对于许多团队来说,目前看来这种变化还不明显。
大多数阅读这篇文章的团队都不会进行这样的成本计算。他们一看到“开源技术”就会认为这意味着更低的成本;而一旦看到“GLM-5在测试中的表现与GPT-5.4相当”,就会认为可以毫无损失地用其中一个模型取代另一个。
如果人们抱着这样的想法来做出决策,最终可能会花费50,000美元购买一台根本不会使用的GPU集群,或者因为量化后的模型无法处理长上下文信息而导致系统出现故障。
测试结果与实际应用环境中的表现之间的差距,正是需要依靠工程判断来解决的。如果你把这种判断能力交给新闻标题或市场宣传,那么你并没有真正节省成本,只是把问题推迟到了未来才会显现出来而已。




