BI-数据湖-什么是数据湖 它是建筑-数据湖教程
什么是数据湖?
数据湖是一个存储库,可以存储大量的结构化、半结构化和非结构化数据。它是以本地格式存储每种类型数据的地方,对帐户大小或文件没有固定限制。它提供高数据量,以提高分析性能和本地集成。
数据湖就像一个大容器,非常类似于真正的湖泊和河流。就像在一个湖中,你有多个支流进来,一个数据湖有结构化的数据,非结构化的数据,机器到机器,日志实时流经。
数据湖
数据湖使数据民主化,是存储组织所有数据以便日后处理的具有成本效益的方法。研究分析员可以专注于在数据中寻找意义模式,而不是数据本身。
与存储数据存储在文件和文件夹中的分层数据仓库不同,数据湖具有平面架构。数据湖中的每个数据元素都得到一个唯一的标识符,并标记一组元数据信息。
在这个教程中,你会学习
为什么是数据湖?
构建数据湖的主要目标是为数据科学家提供未精炼的数据视图。
使用数据湖的理由是:
- 随着哈杜普等存储引擎的启动,存储不同的信息变得容易。无需将数据建模为具有数据湖的企业范围的模式。
- 随着数据量、数据质量和元数据的增加,分析质量也随之提高。
- 数据湖提供业务敏捷性
- 机器学习和人工智能可用于做出有利可图的预测。
- 它为实施组织提供了竞争优势。
- 没有数据仓结构。数据湖提供 360 度的客户视图,使分析更加稳健。
数据湖建筑
数据湖建筑
图为商业数据湖的架构。下层表示大部分处于静止中的数据,而上层显示实时交易数据。此数据通过系统流过,没有或几乎没有延迟。以下是数据湖架构中的重要层:
- 摄入层:左侧的层描绘了数据源。数据可以分批或实时加载到数据湖中
- 见解层:右侧的层表示使用系统见解的研究方。SQL,NoSQL 查询, 甚至优秀可用于数据分析。
- HDFS是结构化和非结构化数据的具有成本效益的解决方案。它是系统中所有处于静止中的数据的着陆区。
- 蒸馏层从存储轮胎中取出数据,并将其转换为结构化数据,以便于分析。
- 处理层运行分析算法和用户查询与不同的实时,交互式,批量生成结构化数据,以便于分析。
- 统一操作层管理系统管理和监控。它包括审计和熟练程度管理、数据管理、工作流程管理。
关键数据湖概念
以下是需要了解的关键数据湖概念,以完全了解数据湖架构
数据湖的关键概念
数据摄入
数据摄入允许连接器从不同的数据源获取数据并加载到数据湖中。
数据摄入支持:
- 所有类型的结构化、半结构化和非结构化数据。
- 多个摄入量,如批次、实时、一次性负载。
- 许多类型的数据源,如数据库、网络服务器、电子邮件、物联网和FTP。
数据存储
数据存储应可扩展,提供经济高效的存储,并允许快速访问数据探索。它应支持各种数据格式。
数据治理
数据治理是管理组织中使用的数据的可用性、可用性、安全性和完整性的过程。
安全
数据湖的每一层都需要实施安全。它从存储、出土和消耗开始。基本需要是停止对未经授权的用户的访问。它应支持不同的工具来访问数据,轻松导航 GUI 和仪表板。
认证、会计、授权和数据保护是数据湖安全的一些重要特征。
数据质量:
数据质量是数据湖架构的重要组成部分。数据用于精确业务价值。从质量差的数据中提取见解会导致质量差的见解。
数据发现
数据发现是另一个重要阶段之前,你可以开始准备数据或分析。在此阶段,通过组织和解释在数据湖中摄入的数据,使用标记技术来表达数据理解。
数据审核
两个主要的数据审核任务是跟踪关键数据集的更改。
- 跟踪重要数据集元件的更改
- 捕获如何/何时/以及谁更改这些元素。
数据审计有助于评估风险和合规性。
数据血统
此组件处理数据的来源。它主要处理它随时间移动的位置和会发生什么。它简化了数据分析过程中从源到目的地的错误更正。
数据探索
这是数据分析的开始阶段。在开始数据探索之前,它有助于识别正确的数据集至关重要。
所有给定的组件需要共同努力,在数据湖建设中发挥重要作用,轻松演变和探索环境。
数据湖的成熟阶段
数据湖成熟阶段的定义因教科书而异。虽然症结保持不变。成熟后,阶段定义是从外行的角度来看。
数据湖的成熟阶段
阶段 1:按比例处理和摄入数据
数据成熟度的第一阶段涉及提高数据转换和分析能力。在这里,企业主需要根据自己的技能找到工具,以便获取更多数据并构建分析应用程序。
阶段 2: 构建分析肌肉
这是第二阶段,涉及提高数据转换和分析能力。在这个阶段,公司使用最适合其技能的工具。他们开始获取更多的数据和构建应用程序。在这里,企业数据仓库和数据湖的功能一起使用。
第 3 阶段:EDW 和数据湖齐声工作
这一步骤涉及将数据和分析尽可能多地交到人手中。在这个阶段,数据湖和企业数据仓库开始在工会工作。两者都在分析中发挥作用
第四阶段:湖中企业能力
在这个数据湖的成熟阶段,企业能力被添加到数据湖中。采用信息治理、信息生命周期管理能力和元数据管理。然而,很少有组织能够达到这种成熟程度,但这种成熟度将在未来增加。
数据湖实施的最佳实践:
- 建筑组件、其交互和标识的产品应支持本地数据类型
- 数据湖的设计应该由可用的而不是需要的驱动。在查询之前,不会定义架构和数据要求
- 设计应以与服务 API 集成的一次性组件为指导。
- 数据发现、摄入、存储、管理、质量、转换和可视化应独立管理。
- 数据湖架构应针对特定行业进行定制。它应确保该领域所需的功能是设计的固有部分
- 加快新发现的数据源的上线速度非常重要
- 数据湖有助于定制管理以提取最大值
- 数据湖应支持现有的企业数据管理技术和方法
构建数据湖的挑战:
- 在数据湖中,数据量较高,因此该过程必须更加依赖于编程管理
- 很难处理稀疏、不完整、不稳定的数据
- 更广泛的数据集和源需要更大的数据治理和支持
数据湖泊与数据仓库之间的差异
参数 | 数据湖 | 数据仓库 |
---|---|---|
数据 | 数据湖存储一切。 | 数据仓库只关注业务流程。 |
加工 | 数据主要是未处理的 | 高度处理的数据。 |
数据类型 | 它可以是非结构化的,半结构化的和结构化的。 | 它大多以表格形式和结构。 |
任务 | 共享数据管理 | 为数据检索而优化 |
敏捷 | 高度敏捷,配置和重新配置,根据需要。 | 与数据湖相比,它不太敏捷,具有固定的配置。 |
用户 | 数据湖主要由数据科学家使用 | 业务专业人员广泛使用数据仓库 |
存储 | 数据湖泊设计用于低成本存储。 | 使用提供快速响应时间的昂贵存储 |
安全 | 提供较少的控制。 | 允许更好地控制数据。 |
更换 EDW | 数据湖可以成为 EDW 的来源 | 补充 EDW(不替换) |
图式 | 阅读上的架构(无预定义的架构) | 写在写上的架构(预定义的架构) |
数据处理 | 帮助快速摄入新数据。 | 引入新内容非常耗时。 |
数据粒度 | 细节或粒度较低的数据。 | 数据在摘要或汇总详细程度。 |
工具 | 可以使用开源/工具,如哈多普/地图减少 | 主要是商业工具。 |
使用数据湖的好处和风险:
以下是使用数据湖的一些主要好处:
- 完全帮助产品电电和高级分析
- 提供经济高效的可扩展性和灵活性
- 提供无限数据类型的价值
- 降低长期所有权成本
- 允许经济地存储文件
- 快速适应变化
- 数据湖的主要优点是不同内容源的集中化
- 用户,从各部门,可以分散在世界各地可以灵活地访问数据
使用数据湖的风险:
- 一段时间后,数据湖可能会失去相关性和动力
- 在设计数据湖时涉及较大的风险
- 非结构化数据可能导致未管理的赵,无法使用的数据,不同和复杂的工具,企业范围的协作,统一,一致和共同
- 它还增加了存储和计算成本
- 没有办法从其他参与过这些数据研究的人那里得到见解,因为没有关于前分析师调查结果血统的描述
- 数据湖泊的最大风险是安全和访问控制。有时,数据可以在没有任何监督的情况下被放置在湖中,因为有些数据可能具有隐私和监管需求
总结:
- 数据湖是一个存储库,可以存储大量的结构化、半结构化和非结构化数据。
- 构建数据湖的主要目标是为数据科学家提供未精炼的数据视图。
- 统一操作层、处理层、蒸馏层和 HDFS 是数据湖架构的重要层
- 数据吸收、数据存储、数据质量、数据审核、数据探索、数据发现是数据湖架构的一些重要组成部分
- 数据湖的设计应该由可用的而不是需要的驱动。
- 数据湖降低了长期所有权成本,并允许经济存储文件
- 数据湖泊的最大风险是安全和访问控制。有时,数据可以在没有任何监督的情况下被放置在湖中,因为有些数据可能具有隐私和监管需求。
- 原文作者:知识铺
- 原文链接:https://geek.zshipu.com/post/bi/BI-%E6%95%B0%E6%8D%AE%E6%B9%96-%E4%BB%80%E4%B9%88%E6%98%AF%E6%95%B0%E6%8D%AE%E6%B9%96-%E5%AE%83%E6%98%AF%E5%BB%BA%E7%AD%91-%E6%95%B0%E6%8D%AE%E6%B9%96%E6%95%99%E7%A8%8B/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com