数据集成解决方案通常主张一种方法(ETL 或 ELT)优于另一种方法。实际上,ETL(提取、转换、加载)和ELT(提取、加载、转换)在数据集成领域都扮演着不可或缺的角色:

  • ETL在数据质量、数据安全性和数据合规性方面很有价值。它还可以节省数据仓库成本。但是,ETL 在摄入非结构化数据时速度很慢,而且可能缺乏灵活性。
  • ELT在摄入大量原始非结构化数据时非常快速。它还为您的数据集成和数据分析策略带来了灵活性。但是,ELT 在许多情况下牺牲了数据质量、安全性和合规性。

由于 ETL 和 ELT 具有不同的优势和劣势,因此许多组织都使用混合 的”ETLT” 方法来充分利用两种优势。在本指南中,我们将帮助您了解 ETLT 的”原因、原因和方法”,以便确定它是否适合您的用例。

ETL 和 ELT 概述

本节回顾 ETL 和 ELT 背后的历史和目的。

什么是 ETL?

从历史上看,数据仓库经过优化,可快速查询和读取大型数据集,以实现准确的商业智能。这使得数据仓库擅长处理读取操作(选择、WHERE 等)。然而,在购买硬件、许可软件以及开发和维护系统方面,建立和建立数据仓库的成本是一项耗资数百万美元的工程。为了节省成本,开发人员只会将清理、转换和聚合的数据加载到仓库中,并且为了提高效率,他们将删除分析不需要的任何数据。

若要准备这样的数据,组织需要 从不同的 数据库中提取数据, 将其转换为统一格式,并在将不必要的信息加载 仓库之前将其删除。这就产生 ETL(提取、转换、加载)工具,这些工具按以下顺序准备和处理数据:

  1. 源应用程序和数据库中提取原始、未准备的数据到暂存区域。来自不同来源的数据有其自己的
  2. 数据位于暂存区域时,使用 SORT、JOIN 和其他操作转换和聚合数据。
  3. 将数据 加载到仓库中。

根据此工作流,当数据加载到仓库时,ETL 已构建成数据仓库可以高效读取的关系格式,因此商业智能工具可以处理数据以生成有价值的报告。

什么是 ELT?

大多数组织继续依赖 ETL 进行数据集成,但随着高性能基于云的数据仓库(如 、Azure、BigQuery 和Azure雪花)。 BigQuery

现代云数据仓库具有高效管理大型数据集上的写入操作的处理能力。事实上,云数据仓库在处理数据时速度非常快,因此对于许多用例来说,它们已经使 ETL 变得没有必要。这最终导致了新的数据集成策略 ELT,它跳过 ETL 暂存区域,从而加快数据引入和更高的敏捷性。ELT 将原始、未准备的数据直接发送到仓库,并依靠数据仓库执行装货后转换。

ELT 工具按以下顺序准备和处理数据:

  1. 源应用程序和数据库提取原始、未准备的数据。
  2. 未准备的数据加载到仓库中。
  3. 使用数据仓库处理 所需的 转换。

使用 ELT 需要记住的要点是数据转换发生在数据仓库本身中,这通常绕过了对暂存服务器的需要。在这方面,数据仓库中同时包含原始数据和转换数据。

ELT 提供了收集和存储大量原始非结构化数据的出色方式。同时,ELT 不为您提供在将数据加载到数据仓库之前删除 PHI、PII 和其他敏感数据的选项。因此,从数据安全性、合规性和数据质量的角度看,它并不完美。简单地说,以速度和灵活性的名义牺牲安全性和合规性对许多企业来说并不是一个选择,这就是为什么大多数企业继续依赖 ETL 或选择 ETLT 的混合方法(稍后将对此进行更多操作)。

ETL 与 ELT:优势和用例

ETL 和 ELT 都提供了特定的优势,使它们适合不同的用例,有时,正如您在 ETLT 的以下一节中看到的,您确实需要两者的混合。

ETL 优势和用例

ETL 的优点适用于以下情况:

  • 数据合规性和安全性:无论您的组织遵守行业特定的数据合规性标准(如 SOC 2、GDPR、CCPA 和 HIPAA),还是您自己的数据合规性标准,在将数据移动到数据仓库之前,都可能需要删除、屏蔽或加密 PHI(受保护的健康信息)、PII(个人身份信息)和其他数据。在加载之前转换数据的 ETL策略可以实现此目的,但 ELT 策略不能实现。例如,使用 ELT 时,SysAdmins 可以访问日志中的敏感信息,即使数据仓库在加载后转换了这些信息
  • 管理大型数据集:即使现代云数据仓库几乎可以处理任何大小的数据集,您可能不希望为此服务支付额外的数据仓库费用。相反,您可以使用 ETL 解决方案删除管道中不必要的或冗余的数据,以减少数据存储费用。相比之下,ELT 解决方案可能会将大量不必要的数据加载到数据仓库中。
  • 数据仓库处理费:许多 ELT 工具提供较低的前期价格,但这只是因为 ELT 将数据处理成本转移到数据仓库。最后,ELT 不会绕过处理数据转换的成本。因此,许多组织选择 ETL 作为执行数据转换的更具成本效益的方法。例如 ,Xplenty 使用 ETL 定价模型,该模型对每个连接器收取固定费用,并且不按处理收费。因此,组织可以通过允许 Xplenty 在加载阶段之前在管道中执行转换来节省资金。
  • 数据质量: ETL 通过批量管理数据转换和标准化数据格式以防止意外数据损坏来确保数据质量。
  • ELT 优势和用例

    ELT 的优势适用于以下用例:

    • 快速数据引入:ELT 允许您快速添加新数据源并立即输入任何类型的原始数据,而无需数据通过暂存服务器。这些优势使 ELT 成为需要实时流式处理和快速数据引入的用例的的理想之选。
    • 收集并保存以后可能需要的数据:传统的 ETL 涉及以某种方式聚合数据,这要求您抛出数据。但是,ELT 允许您将数据仓库中的所有数据保存起来,即使是您目前没有使用的数据,以后也可能有用。
    • 仅转换特定分析所需的数据:ELT 允许您将原始数据加载到仓库中以用于存储目的,并且仅以最支持特定类型分析的方式转换特定数据。这会减慢读取和分析信息的过程,因为每个分析都从头开始转换数据。但是,对于某些用例,它提供了灵活性,可随着需求的变化或对数据了解的详细了解而轻松更改数据的业务逻辑。
    • 更多的人具备编码仓库内转换的技能:仓库内转换通常用基本 SQL 进行编码。SQL 知识的普及使更多的开发人员更容易访问编码 ELT 转换的过程,即查找能够管理此任务的开发人员更容易且成本更低。

    什么是 Etlt?ETLT 如何合并最好的 ETL 和 ELT

    在大数据分析时代,ELT 具有巨大的优势,因为快速引入使 BI 解决方案能够更快地访问更多数据,包括原始和非结构化信息 但是,仅 ELT 策略的局限性是,它不能始终满足数据安全和合规性要求,尤其是那些要求您在将数据移动到数据仓库之前屏蔽、删除或加密 PHI 和 PII 数据的要求。

    无论您是需要遵守国家或行业数据合规性标准,还是您自己的安全标准,您的组织都可能无法以更快的分析为名牺牲任何程度的安全性和合规性。因此,我们来到需要ETLT(提取,转换,加载,转换)。

    ETLT 是一种”两个世界最好的”数据集成方法,(1) 可加快数据引入速度,而 (2) 根据行业标准确保数据质量和保护敏感数据。ETLT 使用以下数据集成模式:

    1. 源应用程序和数据库中提取原始、未准备的数据,然后加载到暂存区域中。
    2. 暂存区域中”轻”转换数据(通常删除/屏蔽/加密 PHI、PII 或其他敏感数据)。第一个转换阶段一次只应用于一个数据源。这些转换是快速和简单的,因为它们转换每个源独立于其他源。在加载之前,不会尝试将两个数据源集成到一个数据源中。第一阶段的转换涉及数据格式、数据清理和屏蔽/删除敏感数据以用于合规性目的。
    3. 准备好的数据加载到数据仓库中。
    4. 使用数据仓库处理这些事务,在数据仓库中更彻底地转换和集成数据。第二个转换阶段涉及集成多个数据源和同时应用于来自多个源的数据的其他转换。

    ETLT 允许您更快地从不同源中的数据进行数据,因为预加载转换阶段只执行轻型转换。这些轻型转换快速设置和快速处理,它们通过满足基本数据合规性要求和保持数据质量来克服 ELT 的风险。同时,您可以将复杂的多源转换留到数据仓库以后处理。

    ETLT:优势和用例

    在一天结束的时候,ETLT 最重要的用例是您需要在加载之前屏蔽、删除或加密 PII 和 PHI 数据 以符合性 。如果您的行业合规性标准(或区域数据安全法)需要预加载转换,ETLT 允许您满足这些要求,同时仍然获得 ELT 优势,如快速数据引入和业务逻辑灵活性。

    ETLT 用例示例涉及通过 预加载数据掩蔽 将数据化为假名 假名最重要的一个方面是使用数据 掩蔽来 编辑或加密任何 PII 或 PHI 数据,然后再将数据加载到目标数据仓库中。使用 ETLT,您可以将预加载转换限制为简单的数据屏蔽操作,这些操作在 PII/PHI 数据到达数据仓库之前对其进行加密或删除。稍后,您可以根据要求在数据仓库中执行更复杂的转换。

    使用 ETLT 执行这样的简单预加载转换,用于合规性目的,然后为以后保存更复杂的转换,具有以下优势:

    • 满足数据安全性和合规性要求
    • 促进客户信任
    • 限制侵犯隐私的可能性
    • 加快数据引入
    • 提供转换数据的灵活性,因为您可以轻松地更改加载后转换,以适应不同类型的分析
    Comments are closed.