现代数据堆栈代表了数据管理的演变,从传统的整体系统转向敏捷的云系统基于架构。它旨在处理大量数据,提供可扩展性、灵活性和实时处理能力。该堆栈是模块化的,允许组织为每个功能使用专用工具:数据摄取、存储、转换、和分析,促进更高效和民主化的数据分析和业务运营方法。随着企业继续优先考虑数据驱动的决策,现代数据堆栈已成为解锁可行见解和促进创新不可或缺的一部分。

现代数据堆栈的演变

早期:2000 年代之前

公司使用大型单一系统来保存和管理其数据。这些对于日常业务任务很有用,但对于分析大量数据却不太适用。数据存储在 Oracle、IBM DB2 和 Microsoft SQL Server 等传统关系数据库中。

大数据时代:2000 年代初期 – 2010 年代

这一时期标志着向能够高速处理各种格式的大量数据的系统转变的开始。我们开始看到来自各地的更多数据,而且数据来得很快。 Hadoop 等新技术有助于将数据工作分散到多台计算机上。

云数据仓库的兴起:2010 年代中期

云计算开始彻底改变数据存储和处理。 Amazon Redshift 和 Google BigQuery 等云数据仓库提供了可扩展性和灵活性,改变了数据分析的经济性和速度。此外,基于云的数据仓库初创公司 Snowflake 也应运而生,提供了分离计算和存储的独特架构。

现代数据堆栈:2010 年代末至今

现代数据堆栈随着 ELT 流程、基于 SaaS 的数据集成工具以及存储和计算的分离的兴起而形成。这个时代见证了专为数据生命周期特定部分设计的工具的激增,从而实现了更加模块化和高效的数据管理方法。

传统数据系统的局限性

在我的数据工程生涯 在多个组织中,我广泛使用了 Microsoft SQL Server。本节将借鉴这些经验,在讲述这一传统系统所面临的挑战时提供个人风格。稍后,我们将探讨现代数据堆栈 (MDS) 如何解决其中许多问题;有些解决方案对我来说是一个很大的启示!

可扩展性

传统的 SQL Server 部署通常在本地托管,这意味着进行扩展以适应不断增长的数据量需要大量的硬件投资,并可能导致升级期间的停机时间延长。更重要的是,当我们需要处理的数据较少时,我们仍然拥有所有这些我们并不真正需要的额外硬件。但我们仍然为他们付钱。这就像你只需要几个座位而支付整辆巴士的费用一样。

复杂 ETL

SSIS 广泛用于 ETL;虽然它是一个强大的工具,但它也有一定的局限性,特别是与更现代的数据集成解决方案相比。值得注意的是,Microsoft SQL Server 在 Azure 数据工厂和 SQL Server Data Tools (SSDT) 中解决了许多这些限制。

  • API 调用:SSIS 最初缺乏对 API 调用的直接支持。需要自定义脚本来与 Web 服务交互,这使得 ETL 流程变得复杂。
  • 内存分配: SSIS 作业需要仔细的内存管理。如果没有足够的服务器内存,复杂的数据作业可能会失败。
  • 审核:需要在 SSIS 包内进行广泛的审核来进行监控和故障排除,这会增加工作量。
  • 版本控制:SSIS 的早期版本在版本控制集成、变更跟踪和团队协作方面带来了挑战。
  • 跨平台可访问性:从非 Windows 系统管理 SSIS 很困难,因为它是一个以 Windows 为中心的工具。

维护需求

本地服务器的维护需要消耗大量资源。我记得为确保系统保持最新状态并平稳运行需要付出巨大的努力,通常涉及必须仔细管理的停机时间。

集成

将 SQL Server 与更新的工具和平台集成并不总是那么简单。有时需要创造性的解决方法,这增加了我们数据架构的复杂性。

现代数据堆栈如何解决我的数据挑战

现代数据堆栈 (MDS) 解决了我在使用 当需要对数据进行排序和清理时,我们可以使用简单的命令直接进入数据库。这避免了管理大型服务器或挖掘大量数据以发现微小错误的麻烦。当我们谈论保持数据安全和有序时,MDS 提供的工具可以使这一切变得超级简单并且不再那么麻烦。

因此,借助 MDS,我们可以节省时间,可以更快地采取行动,并且减少了很多麻烦。这就像有一群聪明的助手来处理棘手的事情,这样我们就可以专注于最酷的部分——找出数据告诉我们什么。

现代数据堆栈

现代数据堆栈的组件

MDS 由各个层组成,每个层都有专门的工具,可以协同工作以简化数据流程。

数据摄取和集成

从不同来源提取和加载数据,包括 API、数据库和 SaaS 应用程序。

摄取工具

Fivetran、stitch、airbyte、segment 等

数据存储

现代云数据仓库和数据湖提供可扩展、灵活且经济高效的存储解决方案。

云数据仓库

Google Bigquery、Snowflake、Redshift 等

数据转换

像 dbt(数据构建工具)这样的工具可以使用简单的 SQL 在数据仓库内进行转换,从而改进了传统的 ETL 流程。

数据分析和商业智能

分析和商业智能工具允许在整个组织内进行高级数据探索、可视化和见解共享。

商业智能工具

Tableau、Looker、Power BI、优质数据

数据提取和逆向ETL

使组织能够将其仓库数据移回到业务应用程序中,从而根据见解推动采取行动,从而对其进行操作。

逆向 ETL 工具

Hightouch,人口普查

数据编排

帮助自动化和管理数据工作流程的平台,确保在正确的时间处理正确的数据。

编排工具

Airflow、Astronomer、Dagster、AWS Step Functions

数据治理和安全

数据治理重点关注管理数据访问、确保合规性和保护 MDS 中的数据的重要性。数据治理还提供对数据访问、质量和合规性的全面管理,同时提供有组织的数据资产清单,以增强可发现性和可信度。

数据目录工具

Alation(用于数据编目)、Collibra(用于治理和编目)、Apache Atlas。

数据质量

通过验证和清理确保数据的可靠性和准确性,为数据驱动的决策提供信心。

数据质量工具:Talend、Monte Carlo、Soda、Anomolo、Great Expectations

数据建模

协助轻松设计和迭代数据库架构,支持敏捷且响应迅速的数据架构实践。

建模工具

Erwin,SQLDBM

结论:带着成本意识拥抱 MDS

现代数据堆栈非常惊人;这就像拥有一把处理数据的瑞士军刀。它肯定会让事情变得更快并且不再那么令人头疼。虽然它非常强大并且为我们提供了很多很酷的工具,但关注价格标签也很重要。云的按需付费定价非常好,因为我们只需为我们使用的内容付费。但是,就像电话账单一样,如果我们不小心,这些小事情就会积少成多。因此,虽然我们享受 MDS 的强大功能,但我们也应该确保明智地使用它们。这样,我们就可以继续节省时间,而不会在成本方面出现任何意外。

Comments are closed.