开源数据集成并不新鲜。它开始于16年前塔伦德。但自那以后,整个行业都发生了变化。雪花、Bigquery、Redshift 等公司已经改变了数据的托管、管理和访问方式,同时使其更加简单、更便宜。但数据集成行业也发生了变化。

一方面,新的开源项目出现,如2017 Singer.io的一部分。 Singer.io这使得更多的数据集成连接器能够被更多的团队访问,尽管它仍然需要大量的手动工作。

另一方面,数据集成可供更多团队(分析师、科学家、商业智能团队)访问。事实上,像 Fivetran 这样的公司从雪花的崛起中获益匪浅,使非工程团队能够自己建立和管理其数据集成连接器,以便他们以自主的方式使用和处理数据。

但是,即使取得了这一进展,大多数团队仍然在内部构建自己的连接器。生成与购买在构建上有强烈倾斜。因此,我们认为是时候重新审视数据集成的开源技术格局了。

然而,本文的想法来自上周关于 DBT的Slack的一场令人敬畏 的辩论。讨论围绕两件事进行:

  • Fivetran 的开源替代项的状态,

  • 在解决数据集成问题方面,开源 (OSS) 方法是否比商业软件方法更相关。

就连五十一的CEO也参与了这场辩论。

我们已经在上一篇文章中综合 了第二点。在这篇文章中,我们要分析第一点:开源数据集成技术的格局。

TL;DR

下面是一个总结我们分析的表。

橙色是我们目前在 Airbyte 上在未来几周构建的。

为了更好地了解此表,我们邀请您阅读下面我们对景观的分析的详细信息。

数据集成开源项目

歌手

Singer 于 2017 年推出,是目前最流行的开源项目。它由SededData发起,成立于2016年。多年来,Singer 已成长为支持 96 个水龙头和目标。

  • 越来越过时的连接器:Talend(缝合数据的收购者)似乎已经停止投资维护 Singer 的社区和连接器。由于大多数连接器每年看到多次架构更改,越来越多的 Singer 的点击和目标没有主动维护,并且正在过时。
  • 缺乏标准化:每个连接器都是其自己的开源项目。因此,在实际使用水龙头或目标之前,你永远不知道水龙头或目标的质量。你得不到什么,没有任何保证。
  • Singer 的连接器是独立的二进制文件:您仍然需要构建所有内容才能正常工作。
  • 没有完全承诺开放采购所有连接器,因为某些连接器仅由SededData根据付费计划提供。

最后,许多团队将使用SededData为连接器工作良好,并将建立自己的集成连接器,如果他们不工作开箱即用。编辑 Singer 连接器不比自己构建和维护连接器容易。这违背了开源的目的。

空字节

Airbyte 诞生于 2020 年 7 月,因此它仍然是新的。它诞生于对歌手和其他开源项目的挫折感 他们的雄心壮志是到 2020 年底支持 50 多个连接器,因此在项目启动后只需 5 个月。

Airbyte 的使命是将数据集成商品化,为此我们做出了几个重要的选择:

  • Airbyte 的连接器通过 UI 和 API 即通过监视、调度和编排即开箱即用。Airbyte 的构建前提是,用户(无论其背景如何)应在 2 分钟内移动数据。数据工程师可能希望使用原始数据和自己的转换过程,或者使用 Airbyte 的 API 将数据集成纳入其工作流中。另一方面,分析师和数据科学家可能希望在他们的数据库或数据仓库中使用规范化的合并数据。Airbyte 支持所有这些用例。
  • 一个平台,一个标准项目:这将有助于整合单个项目背后的开发,一些标准化和特定的数据协议,可以有利于所有团队和特定案例。
  • 连接器可以使用您选择的语言构建,因为 Airbyte 以 Docker 容器运行连接器。
  • 分离整个平台,让团队根据需求和现有堆栈使用所需的任何 Airby 字节部分(使用 Airflow、Kubernetes 或 Airbyte 的编排、 使用 DBT 或再次使用 Airbyte 的转换等)。团队可以使用 Airbyte 的编排器,也可以使用其规范化或不;一切成为可能。
  • 全面致力于开源 MIT 项目,承诺不隐藏付费墙后面的一些连接器。

Airbyte 及其社区支持的连接器数量正在快速增长。他们的团队预计到2021年初,它将会超过歌手。请注意,Airbyte 的数据协议与 Singer 的数据协议兼容。因此,很容易将 Singer 水龙头迁移到 Airby 字节上。

管道威斯

PipelineWise 是一个开源项目,由传输,其主要目标是满足他们自己的需求。它们支持 21 个连接器,并基于母公司的需求添加新连接器。项目没有附加的商业模式,公司对社区发展也没有明显的兴趣。

  • 尽可能接近原始格式:PipelineWise 旨在将数据从源复制到尽可能接近原始格式的分析数据存储。支持一些次要的加载时间转换,但必须执行分析-数据存储中的复杂映射和联接以提取意义。
  • 托管架构更改:当源数据发生更改时,管道系统会自动检测更改并更改分析-数据存储中的架构
  • 轻量级:无需守护进程或数据库设置。
  • 与 Singer 的数据协议兼容:管道威斯正在使用Singer.io和目标连接器。新的连接器可以添加到管道威斯与相对较小的努力。
  • 梅尔塔诺

    Meltano 是专门从事数据集成的协调者,由 Gitlab 在 Singer 的水龙头和目标之上构建。自 2019 年以来,他们一直在数种方法上进行多次研究。他们现在有一个维护者为这个项目是 CLI 第一。一年后,他们现在支持 19 个连接器。

    • 建立在 Singer 的水龙头和目标之上:梅尔塔诺在数据协议方面与 Singer 的有相同的限制。
    • CLI 先方法:Meltano 主要构建时首先牢记命令行接口。从这个意义上说,他们似乎以偏爱该接口的工程师为目标。
    • 一个新的 UI:Meltano 最近构建了一个新的 UI,以尝试吸引更多的受众。
    • 与 DBT 集成进行转换:Meltano 提供与 DBT的深度集成,因此让数据工程团队能够以任何他们想要的方式处理转换。
    • 与气流集成以进行业务流程:您可以将梅尔塔诺单独用于业务流程,也可以使用”气流”;梅尔塔诺是双向的。

    相关值得注意的开源项目

    以下是您可能听说过的其他一些开源项目,因为它们经常被数据工程团队使用。我们认为他们值得提及。

    阿帕奇气流

    我们看到很多团队使用 Airflow 构建自己的数据集成连接器,用于编排和调度。气流构建时没有牢记数据集成。但是很多团队用它来构建工作流。Airbyte 是提供 API 的唯一开源项目,因此团队可以在其工作流中包含数据集成作业。

    Dbt

    DBT 是使用最广泛的数据转换开源项目。您需要精通 SQL 才能正确使用它,但许多数据工程/集成团队使用它来规范化进入仓库或数据库的原始数据。

    Airbyte 和 Meltano 都与 DBT 兼容。Airbyte 将为团队提供针对他们需要的每个连接进行原始或规范化数据选择的能力,从而满足数据工程和数据分析团队的需求。梅尔塔诺不提供规范化架构,并且仅依靠 DBT 实现。

    阿帕奇骆驼

    Apache Camel 是一个基于开源规则的路由和中介引擎 它使用 RBI 更轻松地与各种传输和消息传递模型(包括 HTTP、ActiveMQ、JMS、JBI、SCA、MINA 和 CXF)集成,以及使用可插入的数据格式选项。

    流集

    Streams 集 是一个数据操作平台,包括名为 DataCollector 的低级开源数据收集引擎。此开源项目不受任何社区支持,公司主要使用该项目来向企业客户保证,无论发生什么情况,他们仍然有权访问代码。

    如果我们错过了任何开源项目或列出的任何有价值的信息,请告诉我们。我们将尽量使这个列表保持最新和精确。

    Comments are closed.