OpenAI-Codex-Spark在Cerebras硬件上实现了超快的编码速度

在硬件战略上做出了重大调整，OpenAI推出了GPT-5.3-Codex-Spark——这是其首个基于Cerebras晶圆级芯片而非传统Nvidia GPU开发的量产型人工智能模型。该公司表示，这一新模型能够显著提升处理速度并降低延迟，从而实现实时、交互式的编码体验。

我们向ChatGPT Pro用户提供Cerebras上的Codex-Spark作为测试版本，这样开发者就可以尽早开始进行实验。同时，我们也会与Cerebras合作，进一步提升数据中心的处理能力，优化整体用户体验，并逐步推出更先进的模型。

Codex-Spark每秒能处理约1,000个代码指令，这一速度是早期版本的15倍左右，因此它能够为实时编码提供强大的支持，使迭代过程更加高效。OpenAI指出，这款新模型就是专门为与Codex进行实时交互而设计的——用户可以立即看到修改后的效果，无论是进行针对性的编辑、调整逻辑结构，还是优化界面设计。

为了实现实时编码功能，OpenAI对Codex-Spark进行了优化，使其更适用于低延迟的交互式开发流程，而非需要进行深度推理或执行通用任务的场景。尽管如此，这款模型仍然保留了其前身能够长时间连续运行的能力，可以“在无需人工干预的情况下运行数小时、数天甚至数周”。

OpenAI表示，GPT-5.3-Codex-Spark在专为软件工程任务设计的SWE-Bench Pro和Terminal-Bench 2.0测试中表现优异，其性能介于GPT-5.1-Codex-mini和GPT-5.3-Codex之间，但处理速度却快了很多。该公司还指出，为降低整个请求响应流程中的延迟而采取的各种优化措施，将会对所有模型产生积极影响。

在技术实现层面，我们优化了数据在客户端与服务器之间的传输机制，重新设计了推理算法的核心部分，并改进了会话初始化流程，这样用户在迭代过程中就能更快地看到修改结果，同时系统的响应速度也能得到保持。

除了这些优化措施外，OpenAI还引入了持久的WebSocket连接功能，并对Responses API进行了多项改进。总体而言，这些改动使每次客户端与服务器之间的交互所消耗的时间减少了80%，每个代码指令的处理时间缩短了30%，用户从开始请求到看到第一个结果所需的总时间也减少了50%。OpenAI表示，这些优化将会成为所有模型的默认配置。

Codex-Spark运行在Cerebras的晶圆级Engine 3加速器上，这类加速器非常适合用于低延迟、高速度的推理任务。不过，OpenAI强调，这并不意味着他们将放弃使用GPU作为训练和推理的核心硬件。实际上，Cerebras加速器也可以与GPU结合使用，从而发挥两种架构的优势。

OpenAI的这一宣布在网络上引发了广泛的讨论。一些Reddit用户表示，比起速度，他们更看重“最高的智能水平和可靠性”；用户就评论道：“如果完成一项任务需要一小时，但结果更好，那我完全愿意等待这一个小时。”(https://www.reddit.com/r/codex/comments/1r30pvl/comment/o50tpmu/)。用户也指出，人们很容易低估快速模型所带来的重复迭代所带来的累积成本。

尼古拉斯·范·兰德斯胡特在X.com上指出，性能提升并没有像宣传的那样显著；在实际测试中，其速度提升幅度更接近1.37倍，而非15倍。他解释说，之所以会出现15倍的这个数字，是因为将Codex-Spark与Codex的某种特定配置进行比较了——那种配置被称为x-high，它的设计目的是通过延长推理时间来提高准确率。

Codex-Spark目前提供了128千字节的上下文窗口，并且仅支持文本处理功能；根据从开发者社区收集到的反馈，未来计划推出支持更大上下文范围的更快速模型。

OpenAI-Codex-Spark在Cerebras硬件上实现了超快的编码速度

Related Posts: