COVID-19 如何影响基于人工智能的技术
已发表: 2020-10-1330秒总结:
- COVID-19 的出现损害了在大流行前编译的数据集的有用性——导致它们授权的 AI 平台出现显着的错误率。
- 受这种现象影响的一个领域是发声。 虽然开发数据集是为了适应现实生活中的变量,例如口音和背景噪音,但它们的多样性不足以区分从面罩后面发出的语音命令。
- 举例来说,语音模型在佩戴口罩的用户中经历了平均 50% 的质量损失。 即使是性能最好的引擎也会出现 25% 的质量损失。 声音高的人感受到的影响最大,因为面具掩盖了高音的可懂度
- 在语音驱动的应用程序中减少有问题的关键字和单词的快速技巧是使用应用程序本身收集的数据来识别被错误转录的单词; 并让应用程序做出更正转录的假设,以便向用户传达预期的含义。
- 长期的解决方案是增加数据集并收集实际上模仿现实生活场景的语音样本; 此时需要在各种环境中包含低沉的语音
- 面部识别数据集正面临来自口罩佩戴者的相同挑战。
我们与技术互动的方式在不断发展。 我们都记得在键盘上输入 DOS 命令如何让位于鼠标导航 Windows 的所见即所得的简单性,而今天,触摸屏的使用越来越多。 用户界面的下一个重大进化步骤——而且意义重大——包括语音命令、面部识别技术和人工智能 (AI)。
启用 AI 的机器将使用这些接口来预测、预测和执行大量任务——加快流程并实际上最大限度地减少用户用于接口流程的时间。
虽然这预示着一个非常有希望的未来,但最近刹车已经应用于许多基于人工智能的项目。 怎么来的? 因为收集的数据不再一定是干净、准确或可靠的。
它是在 COVID-19 之前的世界中积累的,并基于大流行前市场的假设。
因此,就像建筑师发现其项目蓝图上的所有测量结果都不正确一样,许多 AI 计划又回到了绘图板上。
让我们仔细看看挑战。
可访问性是首要的
目标是让每个人都能更轻松地访问信息和服务。
为此,人脸识别技术呈指数级增长,现已广泛用于机场值机、解锁手机和平板电脑以及授予进入禁区的安全功能。
支持语音的体验也变得越来越普遍。 我们在我们的快餐店看到了语音激活的智能售货亭,例如,在那里你只用你的声音订购薯条,它是语音聊天机器人,而不是忙于完成订单的工作人员,现在提供客户支持和所有这些加售超大号。
这些都是获取信息的好方法,正如我们已经开始将它们同化到我们的正常生活中一样,事实证明这些技术可能需要进行重大改变,因为它们是为大流行前的世界开发和训练的。
大流行如何影响人工智能?
语音技术是在客户提供合理清晰的通知的假设下开发的。
解释语音数据的 AI 模型没有经过训练来处理被面罩遮住的命令——因为它们主要是通过将接收到的声音与语音语料库进行比较,以及与清晰语音样本相关的转录来工作。
这意味着在大流行的世界中,成功的基于语音的客户体验变得更加难以交付。
同样,由于面罩覆盖了人的大部分面部,因此计算机视觉模型现在只能从客户的上半部面部接收信息……预计他们不必处理这种数据场景
事实上,美国国家标准与技术研究院 (NIST) 的一项研究发现,在 COVID-19 大流行出现之前开发的面部识别算法在准确识别人方面“非常困难”。
NIST 的研究表明:“即使是测试的 89 种商业面部识别算法中最好的,在将数字应用的口罩与没有戴口罩的同一个人的照片相匹配时,错误率也在 5% 到 50% 之间。”
结果,给客户留下了不愉快的用户体验,需要他们恢复到“手动”界面,从而大大阻碍了识别过程。
人工智能如何在现代大流行世界中保持相关性?
AI 模型使用数据进行训练、做出假设,然后向用户提供响应。 然后,这些数据构成了数据集,该数据集是与当前操作进行比较的整批数据。
直到最近,人工智能模型都使用属于非大流行世界的数据进行训练,在那里人脸是完全可见的,声音也不会被面具遮挡。
COVID-19 大流行让我们的人工智能平台措手不及,人工智能需要时间来适应新环境。 为了让语音体验和人脸识别保持相关性,数据集需要适应当今的新情况。
AI语音技术如何被重新设计?
在语音驱动的应用程序中减少有问题的关键字和单词的快速技巧是使用应用程序本身收集的数据来识别被错误转录的单词; 并让应用程序做出更正转录的假设,以便向用户传达预期的含义。
例如,快餐环境中的语音驱动应用程序转录“我可以买一些橙色的鞋子吗?” 应该考虑到用户很可能的意思是“橙汁”,并在应用程序级别修复模型中的错误,或者请最终用户确认。
最终,开发人员需要重新设计应用程序以增加数据集并收集实际上模仿现实生活场景的语音样本; 此时需要在各种环境中包含低沉的语音。
AI人脸识别是如何被重新设计的?
目前,正在采用某些解决方法来避免仅依赖面部识别——例如,Apple iPhone 现在在检测到口罩时禁用 Face ID 选项。
“如果 [面部识别] 公司不关注这一点,不认真对待它,我预计它们的存在时间不会更长,”Trueface 的首席执行官肖恩摩尔说,该公司创建了面部识别技术,供人们使用。美国空军。
结果已经展示出来,计算机视觉技术现在被用于识别在公共场所或进入商店之前戴口罩的人,因此它表明该技术也可以用于自身安全。
结论
为了克服大流行带来的挑战,数据科学家正在收集和分析新的相关数据,以成功调整他们的模型以正确地为最终客户提供服务。
过去,收集低沉语音的语音数据在罕见和特定的情况下受到监管,现在它正在成为优先事项。 人脸识别数据集也是如此,这些数据集正在扩展以识别戴口罩的人的图像,基本上是处理眼睛周围的区域。
这需要时间,但公司正在更快地适应这一新现实。 随着收集到的数据量的增长,人工智能模型将变得更加智能,服务终端客户的难度将降低,并使技术再次易于访问。
Sergio Bruccoleri 是文思海辉 EDGE 的首席技术架构师。