数据准备工具:分析策略的秘密武器

数据准备通常被认为是组织内部使用数据的主要障碍。为一个组织找到合适的工具可以取得突破。要获得数据分析的好处,您必须首先准备数据。根据研究机构Gartner最近的一项研究,这是许多组织的一大瓶颈,他们70%的时间都花在数据准备上。

Ehtisham Zaidi,Gartner数据和分析团队的高级分析师,《Gartner公司数据准备工具市场指南》的主要作者说:“及时找到、访问、清理、转换数据并与合适的人共享数据仍然是数据管理和分析中最耗时的障碍之一。”

数据准备工具:分析策略的秘密武器

Hitachi Vantara的首席营销官乔纳森·马丁表示,对于希望通过分析转变业务的组织来说,主要问题不是掌握人工智能,而是掌握数据管道。

他说,“数据准备是最具挑战性的工作。你如何确定这些数据在哪里?我们能建立一个投资组合吗?是否有可能设计一个管道,以自动化、托管和管理的方式将所有这些数据源连接在一起,以便组织能够在正确的时间将这些数据放到正确的位置、正确的人员和正确的机器上?”

那么如何使用数据准备工具来解决这些问题呢?以及在为您的组织选择数据准备工具时要寻找什么。以下是数据准备的深入研究仍然是一个主要分析挑战的原因。

数据准备面临的挑战

各种因素加剧了数据准备面临的挑战。

首先,支持分析计划所需的数据源和数据类型的数量和复杂性呈指数级增长。通过组织内外的分布式数据生态系统访问这些数据源需要大量的时间、资源、技能和工具。

IDC数据集成和完整性软件服务研究主管斯图尔特·邦德(Stewart Bond)表示,“这是当今数据环境的复杂性。因为有许多不同的数据类型:交易数据、社交媒体数据、结构化数据、非结构化数据、日志文件数据、图形数据。数据环境中有不同类型的数据,存储这些数据的技术也不同。”

第二,信息技术团队被自助数据访问和集成的大量请求压垮了。扎伊迪说,这表明从集中式信息技术模型到数据集成的功能不再有效。

他说:“信息技术部门需要通过易于用户使用和理解的工具来配置数据访问和集成,这就是为什么对数据准备的需求进一步增加。”

第三,数据需求不断变化,因为业务分析师、集成商、业务用户、数据工程师和数据科学家对他们的项目有不同的数据需求。

Zaidi说:“这使得一次准备数据成为可能,并允许不同的角色/消费者使用它们来满足他们不断变化的需求。”他补充说,随着数据准备工具的成熟,组织的痛点已经发生了显著变化。难点在于连接了哪些数据源以及准备了哪些数据。如今,组织关注数据治理、谱系、可追溯性和质量。他们还有权确保拥有必要技能的合适人员能够使用数据准备工具访问正确的数据。

下一代数据准备工具

邦德将此归因于“数据智能”问题,即关于数据的元数据。

他说,“人们需要知道数据的位置,数据的含义,谁在使用它,谁可以访问它,为什么他们有数据,保存数据需要多长时间,以及如何使用它。这是一种智慧。”

幸运的是,数据准备工具的市场正在不断发展,包括解决这些问题的新功能。上一代工具仅限于简单的数据转换需求,以支持业务用户所需的最后一英里数据准备。下一代工具现在能够与信息技术团队共享发现的和准备好的模型,用于操作,以及数据管理功能,如数据编目,使用户能够查看和搜索连接的数据资产。

Zaidi说:“一些工具现在嵌入了前一代工具所没有的高级数据质量特性。这些功能包括性能分析、标记、注释、重复数据消除、模糊逻辑匹配、链接和合并。这些功能使信息技术和数据管理团队更容易提高质量并确保治理和协作。”

这里,机器学习是关键。基于机器学习的功能不仅可以在准备前自动执行数据匹配、连接、配置文件、标签和注释,而且一些工具可以突出敏感属性、异常和异常值,并与元数据管理和治理工具合作,以防止敏感数据被暴露。

Zaidi解释道:“这些机器学习增强的数据准备工具允许不同技能水平的用户采用数据准备,同时确保治理和合规性。”

在数据准备工具中查找什么

当组织评估现代数据准备工具时,扎伊迪说他们应该寻找关键功能:

数据摄取和分析。找到一个可视化环境,使用户能够交互式地接收、搜索、采样和准备数据资产。数据编目和基本元数据管理。工具的采用应允许元数据创建和搜索。数据建模和转换。工具应该支持数据混搭和混合、数据清理、过滤以及用户定义的计算、组和层次结构。数据安全。工具应包括安全功能,如数据屏蔽、平台身份验证和用户/组/角色级别的安全过滤。基本数据质量和治理支持。数据准备工具应与支持数据治理/管理和数据质量、用户权利和数据沿袭功能的工具集成。数据丰富。工具应该支持基本的数据丰富功能,包括实体提取和从集成数据中捕获属性。用户协作和运营。这些工具应有助于共享查询和数据集,包括发布、共享和推广具有治理功能的模型,如数据集用户评级或官方水印。

此外,扎伊迪强调了以下独特的功能:

数据源访问/连接。工具应具有基于应用编程接口和基于标准的连接,包括对云计算应用程序和数据源(如流行的数据库部分自动化和云计算数据仓库)、内部数据源、关系和非结构数据以及非关系数据库的本地访问。机器学习。工具应该支持使用机器学习人工智能来改进甚至自动化数据准备过程。混合和多云部署选项。数据准备工具需要支持云平台部署、内部部署或混合集成平台设置。特定于域或垂直领域的产品或模板。工具应为特定区域或垂直区域的数据和模型提供包装模板或产品,以加快数据准备时间。

最后,扎伊迪说人们首先必须考虑的是他们的组织是使用独立的数据准备工具,还是与将数据准备嵌入更广泛的分析/商业智能、数据科学或数据集成工具的供应商合作。如果数据集成有一个依赖于一系列分析/商业智能和数据科学工具的通用用例,考虑使用独立的工具。另一方面,如果您只需要在特定平台或生态系统的场景中准备数据,使用这些工具的嵌入式数据准备功能可能更有意义。

数据准备市场概况

Gartner将数据准备工具的供应商分为四类,因为数据准备功能嵌入在所有数据管理和分析工具中,所以每一类都在不断变化。

(1)独立的数据准备工具。该领域的供应商专注于与下游流程的更紧密集成,例如对多种分析/商业智能、数据科学和数据集成工具的应用编程接口访问和支持。该领域的工具包括来自供应商的产品,如阿尔泰、数据米尔、洛雷伊欧、莫达克分析、帕克萨塔和特里法塔。

(2)数据集成工具。供应商一直关注数据集成和管理。这包括来自供应商的产品,如剑桥语义学、Denodo、Infogix、Infogix、SAP、SAS、Talend和TMMData。

(3)现代分析和商业智能平台。这些供应商将数据准备作为端到端分析工作流的一部分。Zaidi说,由于数据准备对现代分析和商业智能至关重要,该领域的所有供应商都在嵌入数据准备功能。这一类别的供应商包括Alteryx、Tableau、剑桥语义学、Infogix、Microsof、MicroStrategy、甲骨文、Qlik、SAP、SAS、TIBCO软件和TMMData。

(4)数据科学和机器学习平台。Gartner的分析师表示,这些供应商提供数据准备,作为端到端数据科学和机器学习过程的一部分。其代表性制造商包括奥特雷、剑桥语义学、数据库、国际商用机器公司、信息交换公司、快速洞察公司、思爱普和SAS。

除了上述四个类别,高德纳分析师还发现了具有数据准备能力的新类别包括以下平台和代表性供应商:

数据管理/数据湖支持平台:Informatica、Talend、Unifi和Zaloni 数据工程平台:Infoworks 数据质量工具:Experian 数据集成专家:Alooma、Nexla、StreamSet和Striim

6种关键数据准备工具

以下六个数据准备工具提供了当前可用功能的更详细描述。

(1)Alteryx Designer

这个独立的数据准备工具也是Alteryx分析和数据科学平台的一部分,这意味着它也作为一个功能嵌入到更广泛的现代分析和商业智能平台以及更广泛的数据科学和机器学习平台中。它提供了拖放式工作流,可以在没有SQL代码的情况下分析、准备和混合数据。它每年订阅一次,由指定用户定价。

(2)Cambridge Semantics Anzo

Anzo是剑桥语义的端到端数据发现和集成平台,因此涵盖了高德纳的所有四个类别。Anzo将基于语义的图形数据结构层应用于现有的数据基础设施,以映射企业数据、揭示数据集之间的连接、实现可视化探索和发现,以及混合多个数据集。Anzo通过订阅提供,其定价基于核心和用户数量。

(3)Datameer Enterprise

Datameer Enterprise是一个数据准备和数据工程平台,属于Gartner的独立范畴。它侧重于使用向导引导的集成过程来收集不同的原始数据源,以创建单个数据存储。数据meer企业版提供了一个类似电子表格的界面,可用于混合和可视化探索功能。客户根据他们的计算能力或数据量收费。云计算客户每小时收费或通过年度许可证收费。

(4)Infogix Data3Sixty Analyze

Infogix的数据3安全性分析是一个基于网络的解决方案,源于Infogix收购Lavastorm。像Datameer一样,它涵盖了Gartner的所有四个类别。data 3安全性使用角色来定义用户。设计者可以创建和编辑数据流,浏览器只能执行数据流,规划者可以创建和修改自动处理计划。Infogix将Data3Sixty作为基于订阅的桌面产品和基于永久和订阅产品的服务器产品进行销售。

(5)Talend Data Preparation

Talend提供三种数据准备工具:Talend数据准备(开源桌面版)、Talend数据准备云(作为Talend云平台的一部分提供的商业版)和Talend数据准备的另一个版本(作为本地Talend数据结构产品)。Talend数据准备是一个独立的工具,而Talend云和Talend数据结构是将数据准备集成到更广泛的数据集成/数据管理工具中的示例。Talend使用机器学习算法进行标准化、清洁、模式识别和协调。开源版本是免费的。商业版遵循基于命名用户许可证的订阅模式。

(6)Trifacta Wrangler

Trifacta牧马人是一个独立的数据准备平台,提供各种版本来支持云计算和本地计算环境。它提供嵌入式机器学习功能,用于推荐要连接的数据、推断数据结构和模式、推荐连接、定义用户访问和自动化可视化以实现勘探/数据质量。特里菲特牧马人提供免费版本,牧马人专业版(根据计算能力和用户数量收费),牧马人企业版(根据计算/处理规模和用户数量收费,包括内部和云版本)和特里菲特的谷歌云数据代表(根据计算消费收费)。

 

极牛网精选文章《数据准备工具:分析策略的秘密武器》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/1685.html

(35)
打赏 微信公众号 微信公众号 微信小程序 微信小程序
主编的头像主编认证作者
上一篇 2019年11月27日 上午10:36
下一篇 2019年11月27日 上午10:42

相关推荐

发表回复

登录后才能评论
扫码关注
扫码关注
分享本页
返回顶部