随着企业努力以可靠和可持续的方式快速产生结果,基础数据的重要性变得至关重要。管理这些数据的一个主要挑战是数据架构中所需的各种功能。重要的是不仅要考虑集成各种数据集成所需的时间以及无缝体验的管理能力,以及这些流程在组织不同部门之间的差异。

而且,随着新的创新和技术进步的出现,这些能力必须不断更新和重构。在此背景下,构建一个可在企业范围内使用、提供互补、灵活和可扩展功能的数据平台(或更恰当地说,数据生态系统)变得至关重要。

数据生态系统的好处是多方面的,可以提高敏捷性和信任度,同时最大限度地降低风险。此外,数据生态系统的重要性延伸到数据素养和数据技能的发展——它代表了致力于数据收集、存储、共享和利用的人员、流程和技术的协同网络。企业必须鼓励团队了解、理解和拥抱数据生态。

数据生态系统的关键原则

图 1. 数据生态系统的关键原则

 

为什么人工智能需要强大的数据生态系统?

随着组织利用人工智能 (AI) 进行创新,对于确保实现信任、可扩展性和协作的强大数据基础至关重要。如图 1 所示,数据生态系统确保利用人工智能(传统和/或生成)进行创新的社区能够以面向未来的方式利用强大数据生态系统的关键组件。该生态系统提供了扩展人工智能相关用例所需的所有组件,数据产品提供了以可靠和可观察的方式获取和使用数据的工具。

这包括:

  • 数据基础设施
  • 计算和性能
  • 数据管理,洞察数据及其质量
  • 数据治理
  • 安全性及相关主数据和元数据

数据生态系统中的关键组成部分是什么?

数据基础设施

数据基础设施是构建所有其他功能(无论是单一功能还是多重功能)的基础支柱。企业越来越多地采用混合方法,将本地系统与各种云服务集成以实现不同的功能。同时,解决该基础设施内的安全和策略管理等关键要素至关重要,特别是为了适应受监管的行业并遵守数据驻留要求和法规(例如 GDPR 和 CCPA)。此外,通过促进应用程序在此数据基础设施中的加入和扩展来有效扩展应用程序的能力也同样重要。

数据存储和计算

如今,仅依赖于单个数据湖随着数据基础设施的不断发展,数据仓库已不再足够。必须根据特定需求(例如用例、数据速度和所应用的分析模式)使用各种存储和计算资源。与此同时,Apache Iceberg 和 Delta 等通用框架和格式正在兴起,以标准化存储解决方案,同时 Parquet 和 Avro 等常见压缩格式的使用也越来越多。这些需要在混合数据基础设施之间兼容,以便当企业过渡到不同的云提供商时,数据存储和计算的转变可以毫不费力地发生。 

整体数据管理

全面而灵活的数据管理生态系统应该能够跨混合多云基础设施,利用各种数据存储和计算资源的功能,无论使用什么应用程序或云。数据管理控制台应设计用于集中控制,同时允许在整个混合多云基础设施中分散执行。例如,如果企业使用 Snowflake 进行存储和计算,则数据质量等数据管理功能应转换为 Snowflake 原生程序。同样,如果企业选择 Databricks,则应调整其流程以利用 Databricks 的原生 Spark 功能,使其能够在数据生态系统中高效运行。

数据 G治理和数据数据 P产品

重要的是要为企业提供强大的数据治理层和基于数据产品的数据共享层支持数据管理组件的能力。这种方法需要强大的元数据基础的支持,将业务和企业概念与底层技术的复杂性联系起来。它使非技术数据用户能够使用数据。他们无需完全了解底层存储、计算和基础设施生态系统的详细信息即可做到这一点。

扩展数据治理功能需要一个包含协作和建议的强大自动化层。这可确保您的数据生态系统得到正确使用,并允许手动任务实现自动化。 本质上,数据治理和数据产品层必须与数据管理层的其余部分紧密集成。

分析和运营操作流程

该层旨在支持分析和运营流程,包括人工智能和机器学习、自助报告以及与运营相关的应用程序。数据管理和数据治理功能协作为分析和操作系统提供可信的数据产品至关重要。分析利用这种精细的智能与底层数据存储、计算资源和数据基础设施层进行交互,以访问最相关的数据集。

企业的价值驱动因素

复合值

如果数据生态系统经过精心设计和构建,随着新用例的出现,它已经具有巨大的价值。这一价值体现在能够有效识别现有数据产品、与适当的数据管理人员联系、建立对数据的信任以及轻松准备和组合数据以满足每个用例的特定要求。

为了进一步阐明其价值,精心设计的数据生态系统可以实现以下目标:

降低风险并增加责任

数据生态系统可以提供一组集成的服务和功能,确保轻松透明,将企业的不同方面连接在一起。专注于协作使业务部门能够做出贡献,因为他们看到了其业务部门和整个企业所获得的价值。

提高敏捷性

数据生态系统的整个框架基于模块化和重用。这使企业能够识别、利用和自动化,从而提高敏捷性。例如,自动化数据分类以将不同的分类元素连接到元数据和数据存储实体和属性,从而实现更轻松/整合的数据质量和保护。

降低成本并增加价值

可以通过多种方式降低成本,首先是通过整合技术能力和减少单点解决方案、跨解决方案集成的成本以及管理和维护所有解决方案和技能的成本。第二步是利用 FinOps 等智能功能,例如,数据管理层可以根据工作负载在基于用例的最具成本效益的数据存储和计算选项上运行。

摘要

数据生态系统通过前瞻性的人工智能驱动战略为企业和领导者提供了巨大的价值和适应性。这样的生态系统必须是动态的,随着新的业务需求和技术进步的出现而不断适应。对于团队来说,掌握整个数据生态系统至关重要,而不是将单一功能应用于每个用例。实现全方位的好处通常还需要企业工作流程中的文化转变。这种转变使数据办公室团队能够有效地管理、维护、扩展和量​​化整个组织内数据生态系统的价值。

Comments are closed.