在许多媒体文章中,我们可以看到“机器学习使二十个行业成为可能”的字样。然而,许多文章并没有明确这种“能量”体现在哪些方面,以及企业在引入机器学习模型的过程中应该注意哪些问题。在今年KDD会议上收到的论文中,世界最大的在线旅行社网站Booking.com提交了一篇论文,分析了他们面对的150个成功的机器学习应用程序以及从这些应用程序中吸取的6个教训。本文是本文的简要总结。
“150成功的机器学习模式: 6从预订网站获得的经验教训”是一个极好的概述,它结合了大约150台成功的面向客户的机器在Booking.com的成功应用和从中获得的经验教训。奇怪的是,尽管论文的题目是这样写的,但六课从未在正文中清楚地列出。然而,我们可以从论文的划分中推断出这些部分。以下是我的解释:“当然,本文中有六个以上的好建议。
使用机器学习模型的项目将创造巨大的商业价值。模型的性能并不等同于业务性能。找出你想解决的问题。预测的延迟是一个重要的问题。尽早获得关于模型质量的反馈。测试您的模型的业务影响(也在第二点中提到)
我们发现很难施加真正的商业影响,而且很难区分建模工作和观察到的影响之间的关系。我们的主要结论是:通过机器学习来构建这150个成功的产品,其基础在于将迭代的、假设驱动的过程与其他学科相结合。
不要把这段引文解释为不值得投资于机器学习。相反,我认为,就像DevOps状态报告中提到的高性能组织的所有其他特征一样,提高组织在面向用户的场景中设计、构建和成功部署机器学习模型的能力是提高组织竞争力的基础。(此外,在未来的报告中看到证实或否定这一假设的数据会很有意思。)
你可能听说过Booking.com,“世界上最大的在线旅行社”。给用户提供一个好的旅行体验是一项具有挑战性的任务,主要是由于以下因素:
Booking.com 在构建模型时需要解决那些问题?
推荐的风险很高——预订一个错误的地方比看一部你不喜欢的电影要糟糕得多!
用户在预订旅行时往往没有给出足够的信息来说明他们真正期望的是什么。
住房供应有限,价格变化会影响居民的选择。
每次使用该平台时,居民的偏好可能会改变(例如,如果他们一年只预订一两次)。
关于住宿的信息太多,用户无法及时消化。
目前,大约有150种机器学习模型已经投入生产,因此机器学习已经触及了Booking.com用户体验的各个方面。有些模型非常具体,并且关注特定环境中的特定情况。其他模型,如语义层,对一些可以在许多环境中使用的概念进行建模,如根据用户旅程的结束预测用户灵活性的模型。
这 150 个模型都是什么模型?
Booking.com使用的模型可以分为六类:
在Booking.com,上述模型都具有商业价值。然而,与其他不使用机器学习的成功项目相比,基于机器学习的项目通常会产生更高的回报。
旅行者偏好模型:在语义层工作,对用户的偏好做出各种预测。(如灵活度) 旅行者背景模型:同样在语义层,预测旅程发生的背景(如家庭出行、与朋友出行、商务出行、……) 条目空间导览模型:追踪用户的浏览记录,使得推荐能整体考虑用户个人历史记录和整个目录。 用户界面优化模型:优化背景图片、字体大小、按钮等 UI。有趣的是,「我们发现没有某个特定的值是整体最优值,所以我们的模型会根据背景和用户信息,来确定最佳的用户界面。」 内容策展模型:策划并选择性地展示人工生成的内容,如评论。 内容扩充模型:计算一个旅程所含元素的附加信息,如当前哪些选择物超所值,或者某个区域内的价位趋势。
经验教训 1:使用机器学习模型的项目会创造巨大的商业价值
图2:各种模型相对于中间影响的商业影响。一旦投入使用,它们通常将继续是进一步产品开发的基石,除了直接的商业利益。下图显示了一系列产品部署的影响,每个产品部署都基于前者,并继续提高商业产出。
图3:推荐产品的一系列实验。每个实验测试一个新版本,专门研究某个领域或一组机器学习问题。Booking.com通过随机对照实验测量模型对一些商业指标的影响来估计模型的价值。
我们有一个有趣的发现:提高模型的性能不一定会增加商业价值。
原因可能如下:商业价值饱和(无论你做什么,都没什么可提取的);观众减少导致的部分饱和(新旧模型的效果大致相同);无法成功转换为商业指标(如转换率)的一些间接指标(如点击率)的过度优化;下图所示的恐怖谷效应(人形玩具或机器人的模拟程度越高,人就越受欢迎;然而,当超过临界点时,有利程度突然下降,越多的人不喜欢恐惧直到底部,这种效应被称为诡异谷(uncanny valley)。
图5:神秘的山谷:人们有时不喜欢过于精确的预测(目的地推荐基于马尔可夫链)。照片中的用户抱怨道:“booking.com怎么知道我在去萨尔茨堡之前会去维也纳?”
在开始构建模型之前,有必要花时间仔细定义您想要解决的问题。
构建问题的过程以业务案例或概念为输入,以定义明确的建模问题(通常是受监督的机器学习问题)为输出,以便找到建模业务案例或概念的良好解决方案。
一些惊人的改进不是来自于在给定系统下优化模型,而是来自于改变系统本身。例如,基于点击数据的用户偏好模型被改变为基于访客评论数据的自然语言处理。
我们发现通常最好的问题不是我们能直接想到的,改变问题的设置可以有效地释放隐藏的价值。
关于绩效对业务指标的影响,我们还有另一个重要的观点。在引入合成延迟的实验中,Booking.com发现如果延迟增加约30%,转化率将降低0.5%。”这是我们运营的相关成本. ”
这与机器学习模型尤其相关,因为它们需要强大的计算资源来进行预测。即使是数学上简单的模型也可能会导致结果延迟。
Booking.com采用各种方法来减少模型引入的延迟,包括分发模型的多个副本以实现横向扩展、开发定制的线性预测引擎、更喜欢参数较少的模型、批处理请求以及预计算和/或缓存。
当模型处理请求时,监控输出质量非常重要,但是至少有两个问题没有很好地解决.
很难观察到真正的标签,导致反馈不完整。
反馈延迟,例如,模型预测用户在预订时是否会留下评论,但是在旅行完成之前无法评估此预测的准确性。
Booking.com有一个技巧在这种情况下很好地解决了第二个分类问题,那就是观察模型产生的响应的概率分布。”平稳点清晰的平滑双峰分布最能说明该模型能够成功区分这两类. “其他形状(见下图)表明模型可能遇到了一些困难。
图7:响应分布图示例
.证据表明,响应分布的分析对于帮助我们在早期阶段检测模型中的缺陷非常有用。
本文研究的机器学习的成功案例大多伴随着精巧的实验设计。一些实验设计指导开发过程,另一些用于测试影响。
本文就如何在不同条件下进行实验提出了建议。
图8:选择性触发的实验设计
如果模型生成的结果只在某些情况下影响用户体验,那么实验组和控制组的范围被进一步限制,使得模型可以在这个范围内生成用户可见的输出(当然,在控制组中是看不到的)。为了评估性能的影响,添加了第三个控制组,并且根本没有调用该模型。当比较模型@
图9:依赖于模型输出和控制组来测量性能影响的触发器的实验设计
图10:比较模型时的实验设计
500万人工智能人才缺口!将来计算机会取代数学家吗?人工智能集成与发展世界会议在济南召开,发布最新计算机技能要求排名:蟒蛇排名第三,你能猜到吗?害怕部署机器学习模型?这是一个实践指南。
极牛网精选文章《分析了自家150个ML模型之后,这家旅行网站得出了6条经验》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/2024.html