数据科学：合成数据如何解决匿名化问题？

现在，随着GDPR的生效，企业在保护数据时必须非常小心。传统的匿名通常不是真正的匿名，最终个人身份可以被识别。向数据添加额外匿名级别的一种方法是引入复合数据。

自GDPR EU-数据监管条例于2018年5月生效以来，许多在欧盟运营的企业可能担心其违规处罚，这可能导致高达全球年营业额4%的罚款。

上个月，英国航空公司和万豪国际分别被处以巨额罚款(分别为1.83亿英镑和1亿英镑)。假设所有大公司都应该知道数据披露意味着什么。对于银行和金融机构等处理大量个人数据的大型企业来说，这尤其令人望而生畏。

我们都知道“数据是新石油”这句谚语。现代企业需要使用客户数据来更好地理解客户，并训练人工智能和机器学习算法。但现在，为了避免数据泄露，许多企业严格控制自己的数据，并制定了严格的程序，让谁能在何时获得数据。尽管这是数据隐私领域的积极趋势，但它仍然限制了组织的数据灵活性和创新能力。

传统匿名化的问题

智能企业现在正在寻找新的隐私增强技术来平衡数据效用和安全性。许多企业现在在“匿名”数据集上运行数据密集型流程(如测试和数据分析)。

匿名化技术多种多样，但最常见的方法之一是一般化，即把数据点的特殊性(如客户的完整家庭地址)改变为更大范围的数据点(如客户所在的地区或城市)。通过牺牲数据集中的一些实际功能，可以确保数据集中的个人是匿名的和不可识别的。

匿名变得如此受欢迎的原因之一是GDPR不适用于匿名个人数据。但更令人担忧的是，最近的研究表明，目前使用的大量匿名化在隐藏一个人的身份方面是无效的。在大多数情况下，机器学习模型可以重新识别个体。

所以，事实上，你不需要个人细节来识别他们。因此，传统的匿名化技术根本不能满足要求。

复杂的合成数据

在综合数据集中，每个数据点都属于一个完全理论化的个体，有自己的姓名、年龄、地址、银行账号、税务记录、病历以及数据分析所需的任何其他细节。历史上，这些数据的主要问题是很难生成足够高质量的合成数据来满足高级数据科学的需求。

然而，这些情况将随着人工智能和机器学习的发展而改变。通过对“真实”数据的算法进行训练，我们现在可以生成一个复合数据集，该数据集保留原始数据的所有基本统计信息，但个人或可识别信息为零。

一个简单的方法是通过Nvidia生成一个对抗网络(GANs)，这是这个人不存在网站背后的技术。该网站使用真实名人面部数据集来生成不存在的人的超现实图像。本质上，这是合成数据。每个人都有许多可以分析的属性(例如眼睛颜色、头发颜色、皮肤颜色)，但是这些数据不能被破坏，因为它们不属于真实的人。

如果将这种技术应用于客户数据，您可以在整个数据科学团队中共享数据，并用于各种建模，而不会带来过多的管理和隐私风险。同时，您的“真实”客户数据可以存储在安全的服务器上，很少有人需要访问它。

写在最后

随着越来越多的企业希望采用全面的数据策略，毫无疑问，所有行业都会产生连锁反应。配备了释放其数据潜力的必要工具，组织将能够利用其客户数据，同时避免风险并承担责任。

随着数据科学、先进的机器学习和各种新技术的出现，数据经济将被重塑，数据创新的新时代即将到来。

社交媒体的出现给人工智能领域带来了巨大的飞跃，但很少有人关注数据的安全性。现在，有了合成数据，我们可以继续沿着数据科学的道路前进。但这一次，在遵守规则的同时，我们也需要对数据更加谨慎。

极牛网精选文章《数据科学：合成数据如何解决匿名化问题？》文中所述为作者独立观点，不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处：https://geeknb.com/3636.html