什么是数据湖?

数据湖是一个存储库,可以存储大量的结构化、半结构化和非结构化数据。它是以本地格式存储每种类型数据的地方,对帐户大小或文件没有固定限制。它提供高数据量,以提高分析性能和本地集成。

数据湖就像一个大容器,非常类似于真正的湖泊和河流。就像在一个湖中,你有多个支流进来,一个数据湖有结构化的数据,非结构化的数据,机器到机器,日志实时流经。

数据湖

数据湖

数据湖使数据民主化,是存储组织所有数据以便日后处理的具有成本效益的方法。研究分析员可以专注于在数据中寻找意义模式,而不是数据本身。

与存储数据存储在文件和文件夹中的分层数据仓库不同,数据湖具有平面架构。数据湖中的每个数据元素都得到一个唯一的标识符,并标记一组元数据信息。

在这个教程中,你会学习

为什么是数据湖?

构建数据湖的主要目标是为数据科学家提供未精炼的数据视图。

使用数据湖的理由是:

  • 随着哈杜普等存储引擎的启动,存储不同的信息变得容易。无需将数据建模为具有数据湖的企业范围的模式。
  • 随着数据量、数据质量和元数据的增加,分析质量也随之提高。
  • 数据湖提供业务敏捷性
  • 机器学习和人工智能可用于做出有利可图的预测。
  • 它为实施组织提供了竞争优势。
  • 没有数据仓结构。数据湖提供 360 度的客户视图,使分析更加稳健。

数据湖建筑

数据湖建筑

数据湖建筑

图为商业数据湖的架构。下层表示大部分处于静止中的数据,而上层显示实时交易数据。此数据通过系统流过,没有或几乎没有延迟。以下是数据湖架构中的重要层:

  1. 摄入层:左侧的层描绘了数据源。数据可以分批或实时加载到数据湖中
  2. **见解层:**右侧的层表示使用系统见解的研究方。SQL,NoSQL 查询, 甚至优秀可用于数据分析。
  3. HDFS是结构化和非结构化数据的具有成本效益的解决方案。它是系统中所有处于静止中的数据的着陆区。
  4. 蒸馏层从存储轮胎中取出数据,并将其转换为结构化数据,以便于分析。
  5. 处理层运行分析算法和用户查询与不同的实时,交互式,批量生成结构化数据,以便于分析。
  6. 统一操作层管理系统管理和监控。它包括审计和熟练程度管理、数据管理、工作流程管理。

关键数据湖概念

以下是需要了解的关键数据湖概念,以完全了解数据湖架构

关键数据湖概念

数据湖的关键概念

数据摄入

数据摄入允许连接器从不同的数据源获取数据并加载到数据湖中。

数据摄入支持:

  • 所有类型的结构化、半结构化和非结构化数据。
  • 多个摄入量,如批次、实时、一次性负载。
  • 许多类型的数据源,如数据库、网络服务器、电子邮件、物联网和FTP。

数据存储

数据存储应可扩展,提供经济高效的存储,并允许快速访问数据探索。它应支持各种数据格式。

数据治理

数据治理是管理组织中使用的数据的可用性、可用性、安全性和完整性的过程。

安全

数据湖的每一层都需要实施安全。它从存储、出土和消耗开始。基本需要是停止对未经授权的用户的访问。它应支持不同的工具来访问数据,轻松导航 GUI 和仪表板。

认证、会计、授权和数据保护是数据湖安全的一些重要特征。

数据质量:

数据质量是数据湖架构的重要组成部分。数据用于精确业务价值。从质量差的数据中提取见解会导致质量差的见解。

数据发现

数据发现是另一个重要阶段之前,你可以开始准备数据或分析。在此阶段,通过组织和解释在数据湖中摄入的数据,使用标记技术来表达数据理解。

数据审核

两个主要的数据审核任务是跟踪关键数据集的更改。

  1. 跟踪重要数据集元件的更改
  2. 捕获如何/何时/以及谁更改这些元素。

数据审计有助于评估风险和合规性。

数据血统

此组件处理数据的来源。它主要处理它随时间移动的位置和会发生什么。它简化了数据分析过程中从源到目的地的错误更正。

数据探索

这是数据分析的开始阶段。在开始数据探索之前,它有助于识别正确的数据集至关重要。

所有给定的组件需要共同努力,在数据湖建设中发挥重要作用,轻松演变和探索环境。

数据湖的成熟阶段

数据湖成熟阶段的定义因教科书而异。虽然症结保持不变。成熟后,阶段定义是从外行的角度来看。

数据湖的成熟阶段

数据湖的成熟阶段

阶段 1:按比例处理和摄入数据

数据成熟度的第一阶段涉及提高数据转换和分析能力。在这里,企业主需要根据自己的技能找到工具,以便获取更多数据并构建分析应用程序。

阶段 2: 构建分析肌肉

这是第二阶段,涉及提高数据转换和分析能力。在这个阶段,公司使用最适合其技能的工具。他们开始获取更多的数据和构建应用程序。在这里,企业数据仓库和数据湖的功能一起使用。

第 3 阶段:EDW 和数据湖齐声工作

这一步骤涉及将数据和分析尽可能多地交到人手中。在这个阶段,数据湖和企业数据仓库开始在工会工作。两者都在分析中发挥作用

第四阶段:湖中企业能力

在这个数据湖的成熟阶段,企业能力被添加到数据湖中。采用信息治理、信息生命周期管理能力和元数据管理。然而,很少有组织能够达到这种成熟程度,但这种成熟度将在未来增加。

数据湖实施的最佳实践:

  • 建筑组件、其交互和标识的产品应支持本地数据类型
  • 数据湖的设计应该由可用的而不是需要的驱动。在查询之前,不会定义架构和数据要求
  • 设计应以与服务 API 集成的一次性组件为指导。
  • 数据发现、摄入、存储、管理、质量、转换和可视化应独立管理。
  • 数据湖架构应针对特定行业进行定制。它应确保该领域所需的功能是设计的固有部分
  • 加快新发现的数据源的上线速度非常重要
  • 数据湖有助于定制管理以提取最大值
  • 数据湖应支持现有的企业数据管理技术和方法

构建数据湖的挑战:

  • 在数据湖中,数据量较高,因此该过程必须更加依赖于编程管理
  • 很难处理稀疏、不完整、不稳定的数据
  • 更广泛的数据集和源需要更大的数据治理和支持

数据湖泊与数据仓库之间的差异

参数 数据湖 数据仓库
数据 数据湖存储一切。 数据仓库只关注业务流程。
加工 数据主要是未处理的 高度处理的数据。
数据类型 它可以是非结构化的,半结构化的和结构化的。 它大多以表格形式和结构。
任务 共享数据管理 为数据检索而优化
敏捷 高度敏捷,配置和重新配置,根据需要。 与数据湖相比,它不太敏捷,具有固定的配置。
用户 数据湖主要由数据科学家使用 业务专业人员广泛使用数据仓库
存储 数据湖泊设计用于低成本存储。 使用提供快速响应时间的昂贵存储
安全 提供较少的控制。 允许更好地控制数据。
更换 EDW 数据湖可以成为 EDW 的来源 补充 EDW(不替换)
图式 阅读上的架构(无预定义的架构) 写在写上的架构(预定义的架构)
数据处理 帮助快速摄入新数据。 引入新内容非常耗时。
数据粒度 细节或粒度较低的数据。 数据在摘要或汇总详细程度。
工具 可以使用开源/工具,如哈多普/地图减少 主要是商业工具。

使用数据湖的好处和风险:

以下是使用数据湖的一些主要好处:

  • 完全帮助产品电电和高级分析
  • 提供经济高效的可扩展性和灵活性
  • 提供无限数据类型的价值
  • 降低长期所有权成本
  • 允许经济地存储文件
  • 快速适应变化
  • 数据湖的主要优点是不同内容源的集中化
  • 用户,从各部门,可以分散在世界各地可以灵活地访问数据

使用数据湖的风险:

  • 一段时间后,数据湖可能会失去相关性和动力
  • 在设计数据湖时涉及较大的风险
  • 非结构化数据可能导致未管理的赵,无法使用的数据,不同和复杂的工具,企业范围的协作,统一,一致和共同
  • 它还增加了存储和计算成本
  • 没有办法从其他参与过这些数据研究的人那里得到见解,因为没有关于前分析师调查结果血统的描述
  • 数据湖泊的最大风险是安全和访问控制。有时,数据可以在没有任何监督的情况下被放置在湖中,因为有些数据可能具有隐私和监管需求

总结:

  • 数据湖是一个存储库,可以存储大量的结构化、半结构化和非结构化数据。
  • 构建数据湖的主要目标是为数据科学家提供未精炼的数据视图。
  • 统一操作层、处理层、蒸馏层和 HDFS 是数据湖架构的重要层
  • 数据吸收、数据存储、数据质量、数据审核、数据探索、数据发现是数据湖架构的一些重要组成部分
  • 数据湖的设计应该由可用的而不是需要的驱动。
  • 数据湖降低了长期所有权成本,并允许经济存储文件
  • 数据湖泊的最大风险是安全和访问控制。有时,数据可以在没有任何监督的情况下被放置在湖中,因为有些数据可能具有隐私和监管需求。