谷歌为Gemini 3 Flash添加了“智能视觉”功能,这种技术将视觉推理与代码执行相结合,使答案能够基于视觉证据来进行验证。据谷歌称,这一举措不仅提高了准确率,更重要的是让人工智能能够展现出全新的行为模式。
简而言之,Gemini 3 Flash不再采用一次性分析图像的方法,而是像智能体一样进行操作:它会规划处理步骤、操纵图像,并通过代码来验证相关细节,然后再给出答案。
这种工作流程形成了“思考→行动→观察”的循环:模型首先会分析输入内容及图像,从而制定出多步骤的处理方案;随后生成并执行Python代码来操纵图像、提取更多信息(如裁剪、缩放、添加注释或进行计算);最后,将处理后的图像纳入整体分析范围,从而得出新的答案。
根据谷歌的说法,在大多数视觉评估任务中,这种技术使准确率提高了5%到10%,这一效果主要得益于两个因素。
首先,代码执行功能使得模型能够细致地观察图像中的各种细节——例如通过放大微小的文字来实现这一点,而无需依靠猜测。此外,模型还可以为图像添加边界框和标签,从而加强视觉推理能力,比如准确计算图像中物体的数量。借助这些功能,谷歌甚至成功解决了“数清手掌上的数字”这一公认困难的任务。
其次,视觉运算和数据可视化任务可以交给用Python和Matplotlib编写的确定性代码来处理,这样就能有效避免在复杂的数学计算中出现错误结果。
对于谷歌的这一公告,X平台用户Kanika评论道:
回过头来看,早期的视觉工具似乎都存在很多缺陷,因为那些模型无法进行视觉上的干预或验证。而“智能视觉”技术显然代表了未来的发展方向。
这一技术的意义重大。它让人工智能真正具备了视觉推理能力,从而可以应用于实体的物理机器人中。这样一来,机器人将拥有更强的环境感知能力和自主行动能力。
还有其他红迪网用户指出,ChatGPT早就通过“代码解释器”实现了类似的功能;不过,它仍然无法准确数清手掌上的数字。
谷歌对于“智能视觉”技术的规划还包括:让系统能够在没有明确指令的情况下自动执行缩放、旋转等操作;添加网页搜索和逆向图像搜索等功能,为模型提供更多分析依据;以及将这一技术扩展到Gemini系列中的其他模型上。
通过谷歌AI Studio和Vertex AI中的Gemini API,可以使用“Agentive Vision”这一功能,而且它已经开始在Thinking模式下被集成到Gemini应用程序中并逐步投入使用。