谷歌最近在BigQuery中推出了针对开源模型的第三方生成式AI推理功能,这使得数据团队能够使用普通的SQL语句来部署并运行来自Hugging Face或Vertex AI Model Garden的任何模型。通过这一处于测试阶段的接口,不再需要单独的机器学习基础设施了,因为系统会自动分配计算资源、管理端点,并通过BigQuery的SQL接口完成所有后续操作。
这一新功能解决了数据团队长期以来一直面临的问题。过去,在运行开源模型时,数据团队需要管理Kubernetes集群、配置端点,并使用多种工具来完成相关工作。Virinchi T在Medium上发表的一篇关于这一功能的文章中这样写道:
这个过程需要使用多种工具,涉及不同的技能领域,还会带来相当大的运营开销。对许多数据团队来说,这些繁琐的操作使得AI技术的应用变得遥不可及——即使这些模型本身是免费提供的。
然而,借助BigQuery的SQL接口,整个流程只需两条SQL语句即可完成。用户可以通过一条CREATE MODEL语句来创建模型,该语句需要指定Hugging Face模型的ID(例如sentence-transformers/all-MiniLM-L6-v2),或者Vertex AI Model Garden中的模型名称。BigQuery会自动配置计算资源,并根据模型的规模,在3到10分钟内完成部署。
接下来,用户可以通过AI.GENERATE_TEXT语句来运行语言模型推理任务,或者使用AI.GENERATE_EMBEDDING语句来处理嵌入数据分析。所有操作都是直接在BigQuery表中进行的。该平台还提供了endpoint_idle_ttl选项,用于自动关闭闲置的端点以避免产生不必要的费用;此外,当批量任务完成后,用户也可以通过ALTER MODEL语句手动终止相关服务的运行。
这一功能还支持针对实际应用场景进行定制。用户可以在创建模型的时候直接设置机器类型、副本数量以及端点的闲置时间。通过使用Compute Engine的预留资源,还可以确保GPU实例的性能稳定。当不再需要某个模型时,只需执行一条DROP MODEL语句,所有相关的Vertex AI资源就会被自动清除。
谷歌在博客中称,该系统能够实现“精细的资源控制”与“自动化的资源管理”,使团队能够在不离开SQL环境的情况下找到性能与成本之间的最佳平衡。2025年9月发布的一篇博客文章提到,使用类似的开源嵌入模型技术,处理3800万条数据记录所需的费用大约仅为2到3美元。
该功能兼容超过13,000种Hugging Face提供的文本嵌入模型以及170,000多种文本生成模型,这些模型涵盖了Meta公司的Llama系列模型以及谷歌的Gemma系列模型。这些模型需要符合Vertex AI Model Garden的部署要求,包括区域可用性限制和配额规定。
Virinchi T详细阐述了这一功能对不同角色意味着什么:
对于数据分析师来说,现在你们可以在不离开SQL环境的情况下尝试使用机器学习模型,也不必等待工程团队的支持。而对于数据工程师而言,构建基于机器学习的数据处理流程变得简单多了——无需再维护额外的机器学习基础设施。
这一功能的推出使得BigQuery与Snowflake的Cortex AI以及Databricks的Model Serving形成了竞争关系。这三者都提供了可通过SQL语言访问的机器学习推理服务。不过,BigQuery的优势可能在于它能够直接整合Hugging Face庞大的模型资源库,这对于那些已经在使用Google Cloud服务的用户来说具有很大的吸引力。
关于如何使用Gemma模型进行文本生成,以及如何利用开源嵌入模型生成文本数据,谷歌提供了相应的文档和教程,具体链接分别为:Gemma模型教程和开源嵌入模型教程。