到目前为止数据很少,有大量的数据。近年来,可用数据量呈指数级增长,大数据变得无处不在。这是由于数据记录设备数量的巨大增长以及这些设备之间通过物联网的连接。似乎每个人都有能力收集和分析大数据。
但是大数据真的就是一切吗?毫无疑问,大数据在某些领域产生了至关重要的影响。例如,几乎每一个成功的人工智能解决方案都涉及大数据处理。
首先,虽然人工智能非常擅长在大数据集中发现模式和关系,但它仍然不是很聪明。计算出的数字可以有效地识别和发现数据中微妙的模式,但是它们不能直接告诉我们这些关联中的哪一个实际上是有意义的。
人工智能和大数据存在什么隐患?
相关性和因果关系
我们都知道“相关性并不意味着因果关系。”然而,人类的大脑生来就是为了寻找规律。当我们看到曲线一起倾斜,数据中出现明显的规律时,我们的大脑会自动给出规律。“
然而,根据统计,我们仍然无法实现这一飞跃。《虚假相关性》 (false)的作者泰勒·维根(Tyler Vigen)在自己的网站上对此开了个玩笑。也有许多例子,比如展示冰淇淋如何明显地导致许多不好的事情,从森林大火到鲨鱼袭击和脊髓灰质炎爆发。
看看这些情节,人们可能会争辩说我们很久以前就应该禁止吃冰淇淋了。此外,事实上,在20世纪40年代的脊髓灰质炎病例中,公共卫生专家建议人们停止吃冰淇淋,作为“反政治饮食”的一部分。幸运的是,他们最终意识到脊髓灰质炎爆发和冰淇淋消费之间的相关性“完全是因为脊髓灰质炎爆发在夏季最为普遍”。”
在统计学中,错误关系或错误关联是一种数学关系,其中两个或多个事件或变量是相关的,但由于某些偶然或第三个看不见的因素(称为“共同反应”变量、“混淆因素”或“潜在变量”)的存在而有因果关系。这种“潜在变量”的例子可以是冰淇淋销售和鲨鱼攻击之间的关联(尽管冰淇淋销售的增加不会导致鲨鱼攻击人)。然而,这两个数字之间有一个共同的联系,即温度。更高的温度导致更多的人购买冰淇淋,更多的人去游泳。因此,这个“潜在变量”确实是明显相关的原因。幸运的是,我们已经学会了区分因果关系。此外,在炎热的夏天,我们仍然可以享受冰淇淋,而不用担心脊髓灰质炎的爆发和鲨鱼的袭击!如果
相关性的力量和局限性
有足够的数据,它将发现计算能力和统计算法的模式。但并非所有模式都有意义,因为错误模式的数量很容易超过有意义模式的数量。将大数据与算法相结合是一个非常有用的工具,如果它能被正确地应用于解决问题的话。然而,没有科学家会认为你可以通过单独处理数据来解决这个问题。无论统计分析有多强大,你都应该基于对要解决的问题的基本理解进行分析。
数据科学是科学的终结吗?
2008年6月,《连线》杂志前主编安德森写了一篇挑衅性的文章,题为《连线》。”相关性取代了因果关系,即使没有连贯的模型和统一的理论,科学也能进步.”
该方法的强度和通用性取决于数据量:数据越多,基于计算发现的相关性的方法就越强大和有效。我们可以简单地将数字输入计算机,这样统计算法就可以自动发现有趣的模式和见解。
然而,这种简化的分析方法也有一些潜在的陷阱,这可以从约翰·波普拉斯(John Poppelaars)在博客上找到的例子中很好地说明出来:
假设我们想为一些变量Y创建一个预测模型,例如公司的股价、在线广告的点击率或者下周的天气。接下来,我们收集所有可用的数据,并将其放入统计过程中,以找到y的最佳预测模型。常见的过程是使用所有变量来估计模型,筛选出不重要的变量,使用选定的变量子集重新估计模型,然后重复该过程,直到找到重要的模型。
然而,安德森的分析方法有一些严重的缺陷。我选择了一个例子,从0到1的均匀分布中提取100个样本,并为Y创建一组数据点,因此这是随机噪声。接下来,我通过从0到1之间的均匀分布中抽取100个样本,创建了一组50个解释变量。因此,所有50个解释变量也是随机噪声。我使用所有的X(1)变量来预测Y和估计线性回归模型。R2(0)是预期的,因为没有任何相关的(所有统一的和独立的变量),但它不是。结果是0。5 .基于随机噪声的回归不错!幸运的是,这个模型并不重要。逐渐消除无关紧要的变量,重新估计模型。重复这个过程,直到找到一个重要的模型。经过几个步骤,发现了显著性模型。调整后的方差为0.4,7个变量的显著性水平至少为99%。第三,我们回到随机噪声,这是绝对不相关的,但我们仍然找到一个有7个重要参数的重要模型。如果我们只将数据输入统计算法来寻找模式,这种情况就会发生。
数据集越大,噪声越强
最近的研究证明,随着数据集的增长,它们必须包含任意的相关性。这些相关性的出现仅仅是因为数据的大小,这表明许多相关性是错误的。不幸的是,许多信息往往是肤浅的。
这是处理多维数据的应用程序中的主要问题。例如,假设您从工厂的数千个传感器收集传感器数据,然后挖掘数据以获得优化性能的模式。在这种情况下,您很容易被数据性能的外观而不是真实的操作性能指标所迷惑。这可能是财务上的坏消息,也可能是工厂安全运营的坏消息。
添加数据和添加信息
作为数据科学家,我们可能经常说改进人工智能模型的最佳解决方案是“添加更多数据”。然而,简单地“添加更多数据”能提高模型性能吗?事实并非如此。我们应该把重点放在“增加更多信息”上。“添加数据”和“添加信息”的区别在于,添加更多数据并不等于添加更多信息(至少是有用和正确的信息)。相反,随着越来越多的数据被盲目添加,有可能添加包含错误信息的数据,这将相应地降低模型的性能。随着大量的数据访问和处理数据的计算能力,考虑这一点变得越来越重要。
那么,上述挑战是否应该阻止您采用基于数据的决策?不,数据驱动的决策将继续存在。随着我们获得更多关于如何充分利用数据和信息来提高性能的知识,这些将变得越来越有价值。
但是要意识到,要使项目成功,不仅需要硬件和大量数据,还需要大数据和计算能力。此外,您应该了解连接数据的基本机制。数据不能解释一切,是人类赋予了数字意义。数据的数量和类型不能更改。
极牛网精选文章《人工智能和大数据存在什么隐患?》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/3405.html