几天前,亚马逊的人脸识别工具错误地将28名美国国会议员与罪犯配对,这一消息引起了关注。为什么人脸识别工具会犯这样的错误?事实上,机器和人类一样,只有在遇到陌生的外国人时才能认出“当地人”。对于来自其他国家/地区的“外国人”,识别准确率相对较低。如何解决这个问题?
使用公开的个人信息进行研究和验证
研究小组正在讨论邓魏宏的贡献
关键是让人脸识别工具尽可能多地了解世界各地居民的人脸,但这个过程并不容易实现。北京邮电大学教授邓魏宏告诉《中国科学报》,用于人脸识别工具研发的训练数据越多,准确率就越高。然而,由于不同国家/地区保护公民的个人信息,收集此类信息越来越困难。缺乏训练数据意味着人脸识别工具只知道“熟人”,而训练数据中对失踪人员的识别准确率较低。
最近,邓·魏宏研究小组的一项研究取得了新进展。该团队揭示了当前人脸识别算法中普遍存在的跨国家/地区识别偏差问题,构建了一个人脸数据集RFW来评估偏差程度,并提出了一种信息最大化自适应神经网络来降低识别偏差,以提高目标域的识别能力。10月27日,相关研究成果在由IEEE主办的国际计算机视觉会议(ICCV)上发表。
人脸识别工具的地域之困
卷积神经网络是人工智能的代表性算法之一,具有很强的图像表示学习能力。2012年,深层卷积神经网络出现在计算机视觉领域,极大地推动了人脸识别的发展,成为人脸识别领域的主流技术。
目前,世界上大多数人脸识别工具都是基于深度卷积神经网络技术开发的,但是这种技术的人脸数据来源域是基于西方人的面部特征,并且面对不同的目标域,即不同国家/地区居民的人脸信息识别需求往往“超出他们的能力”。
邓·魏宏说,由于缺乏基准图书馆,这一领域的研究长期以来进展缓慢。即使人脸识别工具在局部区域的识别率很高,也很难准确地到达全球人类。这导致人脸识别工具具有很强的区域性。
为了推动这项研究,邓魏宏的研究团队建立了一个新的测试库——RFW,以科学客观地评估人脸识别中的偏差。
在RFW数据库的基础上,研究人员验证了微软、亚马逊、百度、师旷的商业应用编程接口和学术界最先进的四种算法。
“这种识别偏差确实存在,有些地区的错误率甚至是西方国家的两倍。”邓魏宏说。
论文评审专家表示,与现有数据库相比,RFW在数据库中的数据分布更加均匀,这将成为更好的跨国识别基准评价数据。
为了找出偏差是否是由训练数据分布不均造成的,研究人员收集了一个涵盖世界各地人类信息的训练数据库,最终发现偏差的发生受到数据和算法的双重影响。
王美,论文的第一作者,北京邮电大学博士生,解释说数据库中的训练数据是平衡的,算法是一样的,但是在一些国家/地区很难识别人脸信息,导致识别准确率低。
当数据少且人脸识别困难时,如何提高识别率?研究人员没有放弃。他们决定进一步研究该算法,并利用该算法使人脸识别工具从其他例子中得出推论。
学习靠“自觉”
传统的机器学习数据库需要手动标记个人信息,这有泄露隐私的风险。用于对象识别的无监督域自适应方法启发了研究者。
该方法使用无监督学习将源域和目标域映射到域不变特征空间,并提高
因此,研究人员提出了一种自适应网络来最大化信息。王美介绍说,这种方法一方面可以减少源域和目标域之间的全局分布差异,另一方面可以学习区分目标域特征。“换句话说,卷积神经网络可以在没有监督的情况下‘有意识地’学习目标域中的面部特征。”王美说。
为了解决两个域之间类别不重叠的问题,信息最大化自适应网络使用谱聚类算法生成“伪标签”,并使用伪标签对监控下的网络进行预适应,初步提高目标域的性能。
该聚类方案本质上不同于其他不适合人脸识别的域自适应方法。王美解释说,新方法可以在新的目标领域自主学习,无需人工干预,从而避免隐私泄露的风险。
为了进一步提高网络输出的区分度,研究人员还提出了一种新的基于互信息的自适应方法,该方法以无监督的方式在目标域中产生更大的特征间距。
不同于一般的监督损失和监督互信息,该方法具有无监督的特点。它可以利用所有未标记的目标域数据,而不管这些数据是否被成功地分配了伪标签。
基于公开数据进行验证
方案能否提高人脸识别工具对不同国家/地区居民的人脸信息的识别率而无需监管?
研究人员使用来自世界各地名人的公开数据来验证。结果表明,信息最大化自适应网络能够成功地将源域的识别能力应用于其他国家/地区的目标域群体,识别性能优于其他域自适应方法。消融实验发现,互信息损失在减少识别偏差方面起着重要作用。
王美补充说,信息最大化自适应网络在跨姿态和跨场景应用中也具有良好的泛化性能。
鉴于更好的实验结果,研究小组发布了RFW数据集,以促进进一步的研究。
目前,来自哈佛大学、帝国理工学院、清华大学、思科、华为、NEC和IBM等20多个国家的研究机构和企业的研究团队已经申请RFW进行多人人脸识别研究。
值得一提的是,在执行自适应学习时,该方法仍然需要用从源区域收集的注释数据来训练模型。这意味着源域数据有泄露隐私的风险。如何在不传输源域数据的情况下在目标域进行自适应学习将是一个值得研究的问题。
邓魏宏表示,下一步是在完全不收集目标领域数据的情况下,提出一种泛化能力更强的新算法,从而直接提高未知目标领域人脸识别工具的准确性。
极牛网精选文章《人脸识别新工具:数据少也能认识“国际脸”》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/3188.html