数据湖的这些知识点你了解吗?

数据湖的这些知识点你了解吗?

今天的文章主要介绍了数据湖的定义,然后介绍了主要云供应商的解决方案和当前的开源解决方案。

定义

看看维基百科的定义:数据湖是以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储。用于报告、可视化、高级分析和机器学习任务。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。我将用红色字体标出定义中的关键内容,并简要解释这些要点。

原始格式:数据未经预处理,各种数据源以保存数据的原始状态收集在单一存储:存储库中,该存储库是除商业智能报告分析之外的单个存储库用于机器学习:,数据湖更适合于直接查询和分析的机器学习

数据湖不是一个新概念。它早在2015年就被提出来了。可以看出,数据湖经常与当前的数据仓库相比较。以下是数据湖和数据仓库之间的早期比较,由谷歌找到

数据湖的相关知识点

至于为什么数据湖慢慢接近每个人的视野,越来越多的比较是与仓库。我认为这主要与机器学习的广泛应用有关。当

数据湖和数据仓库的对比

大数据首次出现时,数据的主要用途是商业智能、报表和可视化。因此,数据需要结构化,并且需要ETL来预处理数据。在这个阶段,数据仓库更适合满足这样的需求,所以企业需要分析的大部分数据都集中在数据仓库中。然而,机器学习的兴起需要更灵活的数据,如果从数据仓库中提取数据,就会出现一些问题。

例如:数据是结构化的;数据经过处理,可能不是算法的预期结果。算法专业学生和仓库开发专业学生之间的沟通成本相对较高。这就是我在工作中遇到的。学习算法的学生需要经常了解我们的仓库模型,甚至深入了解已经完成的业务处理,而我们的处理可能不是他们想要的。基于上述问题,数据湖的概念应运而生。下表比较了主要来自AWS的数据湖和数据仓库之间的差异。

从上表之间的差异可以看出,数据湖的应用场景主要在于机器学习,使用它时构建模式更加灵活。虽然数据湖可以解决企业机器学习应用中的数据需求,但它可以与数据仓库团队分离。然而,这并不意味着数据湖可以取代数据仓库,后者在高效报告和可视化分析方面仍然具有优势。

云厂商的解决方案

云计算的概念近年来也非常流行,主要云供应商自然不会错过数据湖的解决方案。以下是对阿里云、AWS和Azure数据产品的简要介绍。

阿里云:数据湖分析穿过标准JDBC。DLA无缝集成各种业务分析工具,提供便捷的数据可视化。Ariyun OSS可以存储各种结构化、半结构化和非结构化数据,并可以用作数据湖的存储库。在使用DLA之前,有必要创建模式、定义表并执行后续分析。

AWS:湖格式可以识别存储在S3或关系数据库和NoSQL数据库中的现有数据,并将数据移动到S3数据湖。对阿帕奇星火(贝塔)、红移或雅典娜使用电磁辐射进行分析。支持的数据源类似于阿里云。

Azure:Azure数据湖存储,一个基于Azure Blob存储的高度可扩展和安全的数据湖功能,通过Azure数据块处理和分析数据湖中的数据。但是,文档看不到说明@

开源解决方案

除了云供应商提供的解决方案,还有开源解决方案——kylo。这个框架的重点不是很高,社区也不是很活跃。我可能看了官方网站介绍的视频,这与云制造商的解决方案基本一致。支持多个数据源,在分析过程中创建模式。此外,数据里克斯团队(开源火花框架)今年早些时候开放了三角洲湖泊框架。

德尔塔湖是存储层,为数据湖带来了可靠性。德尔塔湖提供ACID事务、可扩展元数据处理以及统一的流和批处理数据处理。德尔塔湖运行在现有数据湖之上,与Apache Spark api完全兼容。架构图如下:

小结

今天的文章主要介绍了数据湖的概念以及数据湖和数据仓库的区别,然后简要了解了目前云厂商和开源软件中数据湖的解决方案。作为数据仓库建设和数据开发人员,我们应该密切关注这一新概念。如果我们在工作中遇到这样的问题,我们也可以考虑是否可以促进数据湖的建设。

此外,作为中小型企业的云解决方案可能是更好的选择,毕竟开源解决方案还不是很成熟,社区也不是很强大。

 

极牛网精选文章《数据湖的这些知识点你了解吗?》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/1841.html

(36)
打赏 微信公众号 微信公众号 微信小程序 微信小程序
主编的头像主编认证作者
上一篇 2019年11月25日 下午6:14
下一篇 2019年11月25日 下午9:53

相关推荐

发表回复

登录后才能评论
扫码关注
扫码关注
分享本页
返回顶部