Databricks最近宣布,基于PostgreSQL的无服务器型OLTP数据库Lakebase现已正式投入使用。Lakebase能够实现计算资源与存储资源的独立扩展,并且被设计为可以与Databricks平台完美集成,从而提供兼具事务处理能力和分析功能的全新解决方案。

据Databricks介绍,这一新型无服务器服务的核心目标是通过将数据库、分析工具和管理机制整合到同一个平台上,来简化实时应用和人工智能相关工作流程。Lakebase支持即时数据分支操作、时间点恢复功能以及统一的访问控制机制,这些设计旨在提升开发效率、增强系统的可靠性,并确保运营数据与分析数据保持同步。

Databricks认为,传统的运营型数据库并不适合当前以人工智能为驱动的应用场景,因此他们提出了Lakebase这一全新的数据库架构理念——这种架构在持久性的数据湖存储基础上,配备了轻量级、临时性的计算资源。该项目背后的开发团队指出了传统数据库所存在的缺陷:“由于每个查询都会竞争相同的CPU和内存资源,因此单个查询就有可能影响所有正在运行的操作流程。这些限制会大大降低工作效率,而且在对实时数据进行操作时也会带来很大风险。随着应用程序自动化程度的提高以及系统开始实时处理数据,这种共享式且脆弱的基础设施就会成为更大的障碍……为了克服这一架构瓶颈,我们推出了Lakebase这种将计算资源与存储资源分离的新型运营型数据库架构。”

Databricks Lakebase是一种托管式的Postgres数据库服务,它与Databricks的数据智能平台进行了深度集成,因此能够实现自动扩展、数据分支以及与其他Databricks服务的无缝整合。作为一家以Apache Spark为基础构建数据分析及人工智能平台的企业,Databricks通过Lakebase为自身现有的产品体系增添了新的选择。Databricks的首席技术官兼联合创始人Matei Zaharia在LinkedIn上写道:“我们相信,这一新服务将会让人们使用运营型数据库的工作变得更加简单、可靠。无论是由人类操作还是由自动化脚本执行,用户都可以立即创建数据库的分支版本、生成数据快照、恢复到特定时间点的数据状态,或者创建离线分析用的副本……而且所有这些操作都依然可以使用标准的Postgres接口和扩展功能。”

这种新的托管服务每个实例最多支持8TB的存储空间,并且使用了最新的Postgres 17版本,其中还包含了专门用于支持人工智能搜索功能的pgvector插件。在正式发布的公告中,Databricks列举了Lakebase的一些典型应用场景,包括为机器学习任务提供实时数据支持、为人工智能应用提供持久性内存资源,以及实现嵌入式数据分析功能等。

Lakebase自2025年6月以来一直处于开发阶段,其技术基础源自Databricks从PostgreSQL公司Neon手中收购的相关技术。后来,在去年10月收购Mooncake后,该技术的功能得到了进一步强化,这使得PostgreSQL数据库与Lakehouse数据之间的集成效果得到了显著提升。

Lakebase目前提供两种版本:自动扩展版和配置版。自动扩展版是较新的版本,新功能都在这一版本中不断添加;而配置版则继续保留现有的各项功能。Ampt与AWS Serverless Hero的联合创始人Jeremy Daly在他的新闻通讯中这样评价:

Databricks推出的新Lakebase无服务器数据库确实引起了人们的关注。将存储和计算分离并不是什么新鲜的概念,但使用Postgres接口直接将数据写入Lakehouse存储空间,并使Spark、Databricks SQL等其他分析工具能够立即对这些数据进行查询,而无需进行任何ETL处理,这一做法确实非常具有重要意义。

对于自动扩展版而言,计费方式是基于使用量的,费用按照Databricks单位来计算,具体金额取决于工作负载所消耗的容量单元时长。客户可以设置自动扩展的范围,同时还可以设定“缩放到零”功能的超时时间。存储费用则是单独计算的。

Lakebase现已在AWS上正式投入生产环境使用,而Azure版本目前正处于公开测试阶段。预计在未来几个月内,Azure将对Lakebase提供全面的支持;谷歌云也将在今年晚些时候推出相应的支持服务。根据官方公告,SOC2和HIPAA认证计划于2026年初完成。目前,高可用性功能仅在配置版中提供。

Comments are closed.