随着大数据越来越重要和被接受,人们也需要考虑如何组织和托管大数据。答案之一是数据湖,这是在数据准备和组织方面最广泛的数据体系结构系统。
@
简而言之,它允许企业首先存储数据,然后在需要时检索数据。就像存储单元一样,你只需存储你的东西,并在将来需要时找到它们。
这种方法与传统的数据仓库完全不同,传统的数据仓库需要对数据进行结构化,在记录数据之前通常采用相似的表格形式。数据仓库是一种固定形式的解决方案,它不灵活,也意味着额外的重新配置成本。但迄今为止,它一直是全球企业的首选。
那么,使用数据湖作为数据管理选项的主要原因是什么?
削减成本
因为在存储数据之前不需要设计数据模型,所以没有前期开发成本。处理数据湖的Hadoop系统是开源的,因此没有额外的软件许可成本。
与传统数据仓库的不同之处在于,对于数据湖,ETL阶段已经完全过去。你不必知道湖中存储的数据类型或有多少个字段。删除ETL过程意味着没有与许可、维护或增长数据结构相关的成本。
敏捷性
添加新单元或单个新项目可能会改变整个现有的数据结构,从而导致额外的成本。此外,进行这些更改所需的实施时间可能从几天到几周不等。
在数据湖中,所有数据都已存储,只有几处更改。你可以随时询问。
这种方法有助于企业在当今不断变化的数据世界中保持敏捷。未来几年可能会出现新的数据格式,其中一些甚至现在都无法预见。因此,企业数据存储系统需要足够灵活,以满足所有既定的和意外的需求,而无需进行重大的结构性更改。
多种格式
数据湖可以处理各种数据格式。尽管数据湖中的一些数据似乎与其他数据无关,但当从整体角度进行组合和分析时,它可以提供基本的业务见解。
例如,如果一个数据湖包含关于客户的记录,如姓名、年龄、去年的支出和在线商店中客户行为的统计图表,很难看出这些细节和销售线索之间的直接联系。然而,把所有的事情放在一起,我们可以发现一定年龄的顾客倾向于更快地做出购买决定,这可能会影响销售策略。
除了各种格式之外,还有数据源的上下文透视图。最常见的资源包括面向客户的应用程序、商业智能应用程序、销售日志等。物联网的兴起将增加数据源和格式的数量,使数据湖成为唯一可靠的解决方案。
人工智能
因为数据湖使用非结构化数据,所以不适合使用传统的基于sql的工具进行查询。相反,由于大多数数据具有合适的3v(体积、速度、多样性),因此可以将其视为大数据并用于训练人工智能算法。
事实上,数据湖的目标是为实时(或几乎实时)处理信息做好准备。这种动态的方法为公司提供了立即响应的机会。将所有数据放在同一个位置意味着在分析前检索数据的时间更短。
灵活性和规模
data lake最典型的特性可能是它的可伸缩性和灵活性,它可以适应企业数据的任何变化,而无需对基础架构进行重大更改。由于整个体系结构是基于云的,通常通过按使用付费的业务模型来访问,任何升级或降级都意味着只需要更改您的支付计划。
这种灵活性与不能实时修改的传统系统形成对比。数据湖可以轻松添加或合并数据。就像一个真正的湖一样,它可以被许多河流收集,新的河流可以在任何时候加入,而不会干扰以前的设置。与此同时,遗留系统就像一个水装置。任何改变都需要更多的瓶子、更多的标签和新的时间表。
局限
虽然数据湖有许多优点,但它不是万无一失的解决方案或万灵药。数据湖的最大风险是它们可能成为数据沼泽,数据可能毫无意义地被丢弃。
所有保存的数据流应该与项目中的kpi和业务目标相结合。避免信息瘫痪的一种方法是创建一个可视化仪表板,通过它可以正确显示数据,即使它不是数据库科学家。
极牛网精选文章《企业选择数据湖架构的5大理由》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/3726.html