在硬件战略上做出了重大调整,OpenAI推出了GPT-5.3-Codex-Spark——这是其首个基于Cerebras晶圆级芯片而非传统Nvidia GPU开发的量产型人工智能模型。该公司表示,这一新模型能够显著提升处理速度并降低延迟,从而实现实时、交互式的编码体验。
我们向ChatGPT Pro用户提供Cerebras上的Codex-Spark作为测试版本,这样开发者就可以尽早开始进行实验。同时,我们也会与Cerebras合作,进一步提升数据中心的处理能力,优化整体用户体验,并逐步推出更先进的模型。
Codex-Spark每秒能处理约1,000个代码指令,这一速度是早期版本的15倍左右,因此它能够为实时编码提供强大的支持,使迭代过程更加高效。OpenAI指出,这款新模型就是专门为与Codex进行实时交互而设计的——用户可以立即看到修改后的效果,无论是进行针对性的编辑、调整逻辑结构,还是优化界面设计。
为了实现实时编码功能,OpenAI对Codex-Spark进行了优化,使其更适用于低延迟的交互式开发流程,而非需要进行深度推理或执行通用任务的场景。尽管如此,这款模型仍然保留了其前身能够长时间连续运行的能力,可以“在无需人工干预的情况下运行数小时、数天甚至数周”。
OpenAI表示,GPT-5.3-Codex-Spark在专为软件工程任务设计的SWE-Bench Pro和Terminal-Bench 2.0测试中表现优异,其性能介于GPT-5.1-Codex-mini和GPT-5.3-Codex之间,但处理速度却快了很多。该公司还指出,为降低整个请求响应流程中的延迟而采取的各种优化措施,将会对所有模型产生积极影响。
在技术实现层面,我们优化了数据在客户端与服务器之间的传输机制,重新设计了推理算法的核心部分,并改进了会话初始化流程,这样用户在迭代过程中就能更快地看到修改结果,同时系统的响应速度也能得到保持。
除了这些优化措施外,OpenAI还引入了持久的WebSocket连接功能,并对Responses API进行了多项改进。总体而言,这些改动使每次客户端与服务器之间的交互所消耗的时间减少了80%,每个代码指令的处理时间缩短了30%,用户从开始请求到看到第一个结果所需的总时间也减少了50%。OpenAI表示,这些优化将会成为所有模型的默认配置。
Codex-Spark运行在Cerebras的晶圆级Engine 3加速器上,这类加速器非常适合用于低延迟、高速度的推理任务。不过,OpenAI强调,这并不意味着他们将放弃使用GPU作为训练和推理的核心硬件。实际上,Cerebras加速器也可以与GPU结合使用,从而发挥两种架构的优势。
OpenAI的这一宣布在网络上引发了广泛的讨论。一些Reddit用户表示,比起速度,他们更看重“最高的智能水平和可靠性”;用户
尼古拉斯·范·兰德斯胡特在X.com上指出,性能提升并没有像宣传的那样显著;在实际测试中,其速度提升幅度更接近1.37倍,而非15倍。他解释说,之所以会出现15倍的这个数字,是因为将Codex-Spark与Codex的某种特定配置进行比较了——那种配置被称为x-high,它的设计目的是通过延长推理时间来提高准确率。
Codex-Spark目前提供了128千字节的上下文窗口,并且仅支持文本处理功能;根据从开发者社区收集到的反馈,未来计划推出支持更大上下文范围的更快速模型。

