如今,许多供应商可以通过提供自动化的数据准备和算法选择水平,使数据智能服务的用户采用人工智能技术,从而消除机器学习的神秘性。
术语“机器学习”给人一种神奇的氛围。普通人通常不采用机器学习,而数据科学家是高度专业化的炼金术士。他们在研究部门和实验室将数据转换成“黄金”,但只是简单地说机器学习是一门科学,除此之外没有什么解释。
当然,这可能是一个鲜为人知的事实,但是多年来,机器学习工具已经发展到几乎任何人都可以按下一个按钮,启动一些机器来学习有价值的东西。这不是一项容易的任务,但是将数据集成和转换成可操作的见解的工作已经自动化,许多有这种动机的组织都可以做到这一点。
这种缓慢的恢复是由商业世界中许多非程序员已经非常精通数据这一现实驱动的。装载数字的电子表格是各级商业决策者的通用语言。机器学习算法也像表格中的数据明确定义的行和列。机器学习的新工具基本上只是将表格数据转换成有用答案的另一个组策略和选项。这些工具的优势在于它们可以处理收集的数据,添加结构,保持一致性,然后开始繁重的计算工作。它们简化了数据收集过程,并将信息保存在行和列中。
这些工具不够聪明,无法为用户完成所有这些研究。用户必须问正确的问题并找到正确的地方。但是这些工具加快了寻找答案的速度,所以它们可以覆盖更多的区域并进行更多的搜索。
AutoML:机器学习的民主化
最近,一个新的流行术语“自动学习”(AutoML)开始出现,表明机器学习算法附带了一个额外的自动化元层。标准算法被设计用来自己寻找模式和规则,但是传统算法有许多选项和参数。数据科学家经常花80%到99%的时间试图找到非常可预测的规则。
AutoML通过尝试一系列选项、测试它们,然后尝试更多的来自动化这个阶段。它不使用机器学习算法运行一次,而是运行n次,进行一些调整,再次运行n次,并重复运行,直到用户的预算、时间和耐心耗尽。
AutMail工具非常适合云计算,因为它们可以启动足够多的机器在云中并行运行,然后在完成后将其返回到池中。用户只需要在高峰计算时间支付费用。
一般来说,自动学习算法是人们开始探索机器学习的好选择。自动化通过处理一些设置参数和选项的基本任务来简化工作,然后为用户测试结果。随着用户变得越来越复杂并开始理解结果,他们可以承担更多的这些任务并设置自己的值。
这些工具不够聪明,无法为用户完成所有这些研究。用户必须问正确的问题并找到正确的地方。但是这些工具加快了寻找答案的速度,所以它们可以覆盖更多的区域并进行更多的搜索。
使机器学习更容易的6种工具
这些工具不够聪明,无法为用户完成所有这些研究。用户必须问正确的问题并找到正确的地方。但是这些工具加快了寻找答案的速度,所以它们可以覆盖更多的区域并进行更多的搜索。
1.Splunk
Splunk的原始版本最初被用作搜索或“窥探”现代网络应用程序创建的大量日志文件的工具。它被开发用来分析所有形式的数据,特别是时间序列和其他顺序生成的数据。该工具通过复杂的可视化例程在仪表板中显示结果。
这些工具不够聪明,无法为用户完成所有这些研究。用户必须问正确的问题并找到正确的地方。但是这些工具加快了寻找答案的速度,所以它们可以覆盖更多的区域并进行更多的搜索。
数据机器人(DataRobot)内部的堆栈是在r、Python或其他几个平台上编写的开源机器库的集合。用户将只处理显示为管道设置类似流程图的工具的网络界面。数据机器人连接到主要数据源,包括本地数据库、云数据存储以及下载的文件或电子表格。用户构建的管道可以清理数据,填充缺失值,然后生成标记异常值和预测未来值的模型。
数据机器人(DataRobot)也可以尝试对为什么做出一些预测提供“人性化的解释”,这对理解人工智能的应用非常有用。
它可以部署在云和内部解决方案的混合环境中。云计算可以通过共享资源提供大的并行性和吞吐量,而本地安装可以提供更多的隐私和控制。
2.DataRobot
H2O喜欢用“无人驾驶人工智能”来描述其探索各种机器学习解决方案的自动化堆栈。它链接数据源(数据库、Hadoop、Spark等)。)并将其输入到具有广泛参数的各种算法中。用户可以控制这个问题的时间和计算资源,并测试各种参数组合,直到预算完成。可以通过仪表板或Jupyter笔记本查看和查看结果。
H2O的核心机器学习算法及其与Spark等工具的集成是开源的,但所谓的“无人驾驶”选项是出售给企业客户的专有软件包之一。
3.H2O
RapidMiner生态系统的核心是一个工作室,用于从可视图标创建数据分析。它将清理用户的数据,然后通过各种统计算法运行它。如果用户想要使用机器学习而不是更传统的数据科学,自动模型将从各种分类算法中进行选择,并搜索各种参数,直到找到合适的匹配。该工具的目标是生成数百个模型,然后确定质量模型。
创建模型后,该工具可以部署它们,测试它们的成功率,并解释模型是如何做出决策的。您可以使用可视化工作流编辑器来测试和调整对不同数据字段的敏感度。
最近的改进包括更好的文本分析、用于构建可视仪表板的各种图表以及用于分析时间序列数据的更复杂的算法。
4.RapidMiner
BigML仪表板为数据科学提供了一个基本工具,用于识别相关性,这些相关性可以构成机器学习中更复杂工作的基础。例如,它们的深层网络为测试和优化更精细的神经网络提供了复杂的机制。模型的质量可以与其他算法进行比较,标准化的比较框架可以帮助用户在经典数据科学和更复杂的机器学习之间进行选择。
BigML的仪表板在浏览器中运行,其分析可以在BigML云平台或服务器机房中运行。云计算版本更便宜,鼓励早期使用,甚至有一个免费包。成本主要取决于数据集大小的限制和可以调用的计算资源的数量。免费软件包将使用不超过两个并行运行的进程来分析高达16MB的数据。较小支付账户的价格非常合理,每月账单只有30美元,但价格会随着资源需求的增加而上涨。
5.BigML
对于非程序员来说,R不是一种容易使用的语言,但它仍然是复杂统计分析的最基本工具之一,因为它非常受核心数据科学家的欢迎。R工作室是一个工具,它为用户提供一组菜单和点击选项,使用户更容易与深入其中R层进行交互。
能够处理电子表格的高级经理可以使用最简单的选项来运行基本分析,甚至一些复杂的分析。然而,有些部分可能会让一些用户感到困惑,但是它处于开放的边缘,每个对它感兴趣的人都可以访问它。尽管仍会有一些困惑,但对于那些想探索尖端工具的人来说,这是值得的。
极牛网精选文章《使机器学习更容易采用的6种工具》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/3765.html