数据湖的概念源于大数据——的出现,数据已经成为企业的核心资产。Hadoop作为存储和管理数据的平台出现了。然而,盲目投资Hadoop数据湖建设并不一定会让您的企业进入大数据——时代,至少不会成功。
当不同形状和大小的数据资产以非统一的方式导入Hadoop环境或另一个大数据存储库时,情况尤其如此。这种无序的方法将带来一些挑战和问题,这可能成为使用数据湖支持大数据分析应用程序的主要障碍。
例如,您可能无法记录哪些数据对象存储在数据湖中,也无法记录它们的来源和出处。这使得数据科学家和其他分析师很难找到分布在Hadoop集群中的相关数据,也使得数据管理者很难确定谁可以访问特定数据集并确定其访问级别。
如果你没有一个好的管理过程,组织数据和“桶”相似的数据对象来帮助简化访问和分析也将是一个挑战。
这些问题与数据湖的物理架构或底层环境无关。无论是Hadoop分布式文件系统还是云对象存储——(如亚马逊简单存储服务)或这些技术的组合,每种技术都包含不同类型的数据。相反,成功实施数据湖的最大障碍来自对数据管理的规划和监督不足。
@
处理Hadoop数据:做需要做的事
从好的方面来说,这些挑战很容易克服。以下是解决和避免这些问题的七个步骤:
1、创建数据分类方法。在数据湖中组织数据对象取决于它们的分类。数据的关键维度需要在分类中确定,例如数据类型、内容、使用方案、可能的用户组和数据敏感度。后者涉及保护个人和公司数据,例如保护客户的个人身份信息或保护知识产权。
2、设计适当的数据架构。应用定义的分类方法来指导如何在Hadoop环境中组织数据。最终计划应包括数据存储的文件层次结构、文件和文件夹命名约定、不同数据集的访问方法和控制以及指导数据分发的机制等内容。
3、使用数据分析工具。在许多情况下,通过分析数据内容,可以部分缓解对进入数据湖的所有数据理解不足的问题。数据分析工具可以通过收集关于数据对象内容的信息来提供帮助,从而为如何对它们进行分类提供一些见解。作为数据湖实施计划的一部分,数据分析还有助于确定应该评估的数据质量问题,以便找出可能的修复方法,并确保数据科学家和其他分析师使用的信息是准确的。
4、标准化数据访问过程。有效使用存储在Hadoop数据湖中的数据集的困难通常是由使用多种数据访问方法的不同分析团队造成的,其中许多方法没有记录。因此,建立通用和直接的应用编程接口可以简化数据访问,并最终允许更多的用户使用数据。
@
5、开发可搜索的数据目录。有效访问和使用数据的一个更隐藏的障碍是潜在用户不知道数据湖中的内容和Hadoop环境中不同数据集的位置,除了关于数据谱系、质量和循环的信息。协作数据目录允许记录每个数据资产的这些和其他细节。例如,它捕获结构和语义元数据、出处和亲属关系记录、访问权限信息等等。数据目录还为用户组提供了一个论坛,以分享关于数据使用的经验、问题和建议。
6、实施足够的数据保护。除了传统的信息技术安全考虑(如网络边界防御和基于角色的访问控制),还需要其他方法来防止数据湖中包含的敏感信息被暴露。这包括数据加密和数据屏蔽等机制,以及自动监控以生成关于未经授权的数据访问或传输的警报。
7、在内部提高数据意识。最后,确保您的数据湖用户意识到需要主动管理他们包含的数据资产。教他们如何使用数据目录来查找可用数据集,以及如何配置分析应用程序来访问他们需要的数据。与此同时,给他们留下深刻印象的是正确使用数据和提高数据质量的重要性。
为了实现使数据湖可访问和可用的最终目标,在将数据迁移到Hadoop环境或基于云的大数据架构之前,必须制定一个精心设计的数据处理计划。采取本文概述的步骤将有助于简化数据湖的实现。更重要的是,规划、组织和治理的正确组合将有助于最大限度地增加组织在数据湖中的投资,并降低部署失败的风险。
极牛网精选文章《合理建立Hadoop数据库的7个步骤》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/3488.html