AI 训练数据:机器学习专家和 TechSpeed 的 CEO 揭示了数据质量如何成就或破坏您的 AI 产品
已发表: 2020-06-26
到 2021 年,超过 80% 的新兴技术将基于人工智能。
然而,尽管这项技术支撑着几乎所有进入市场的新技术产品,但令人惊讶的是,关于塑造我们人工智能系统的因素——数据质量——的讨论却很少。
AI,或机器学习 (ML),通常将训练数据与教科书进行比较; 这些教育人工智能系统,为它们提供上下文以及理解概念的棱镜。
这意味着人工智能驱动的技术与其学习的数据一样复杂和准确。
我们与数据服务机构 TechSpeed 的主题专家兼首席执行官 Vidya Plainfield 坐下来讨论了 AI 训练数据的重要性、数据集不足或选择不当的后果以及我们可以预期在该领域看到的一些趋势。

1. 嗨 Vidya,在我们进入技术细节之前,请告诉我们一些关于 TechSpeed 的信息以及您在 AI/ML 和数据业务方面的背景?
Vidya: TechSpeed 于 2002 年由一位数据极客(我的母亲)和一位发明家(我的父亲)在俄勒冈州的波特兰创立。
虽然他们现在都已退休,但他们的发明精神、企业家精神和家庭精神在我们不断壮大的超过 100 名技术人员、开发人员和管理人员的团队中仍然非常活跃。
在我们 18 年的历史中,我们有机会与客户合作伙伴一起发展和塑造数据行业,因为我们从数据中挖掘、分类和收获洞察力。
大多数人没有意识到的是,在人工智能闪亮的前端背后有一个巨大的数据引擎,而那些 TB 级的数据是由精心构建的信息驱动的。
如果您不小心处理后端数据,您可能会意外地教给 AI 工具一些您不打算教的东西。
TechSpeed 从根本上理解数据,这是我们如何与客户合作以帮助培训和审核他们的 AI 的基石。
2. 让我们在 AI/ML 的背景下定义数据质量:TechSpeed 如何限定数据?
Vidya:当然质量为王; 进垃圾就是出垃圾。
清理原始数据、重新编码缺失的变量并将定性变量转换为定量变量肯定是乏味的。
有句话说:“数据科学家花费 80% 的时间清理数据,20% 的时间用于构建模型。”
我们看到的最大陷阱是公司低估了清洁质量数据并且资金不足。
这种低估意味着在构建他们的程序时,他们必须在拥有足够大的数据集或拥有高质量的数据集之间做出选择。
关键是您需要质量和数量。
TechSpeeds 与客户合作,帮助他们以经济实惠的方式扩展他们的数据集,这样他们就不必做出权衡。 我们提供广泛的服务,包括单一、多重和 DEQA 处理,以确保数据符合程序需求。
3. 您如何评价该行业的数据质量方法? 看看您的同行和客户,您在 AI/ML 培训方面遇到过哪些最常见的错误或误解?
Vidya:有很多公司向善意的公司提供广泛的承诺。
一些供应商开始工作,但希望公司处理培训和持续异常管理方面的繁重工作。
我们看到公司在管理数据计划时犯的最大错误是:
1. 容量不足
需要跨所有类别的大型数据集,以确保对多数参数和少数参数均提供均匀的数据权重。 否则,当尝试响应少数情况时,算法将超重多数数据。
例如,假设您要对树木的图像进行分类。 假设您有很多关于所有不同树种、各种照明和生命阶段的良好数据。 但是,您没有太多关于飓风过后树木的外观的信息。
当然,这些将是少数情况,但如果您只有大多数数据的可靠数据计数,当该工具查看飓风后的树木图像时,它将依赖并过度加权来自大多数健康树木数据的数据放。 这可能会导致错误。
2、品种不足
需要缺乏跨广泛类别的可靠数据,以确保该工具能够处理数据集环境中的持续变化。
例如,假设您正在构建一个查看存储容器图像的可视化分析工具。 然后,突然间,对相机系统进行了升级。 工具输出总是会受到影响。
世界是一个动态的地方。 需要考虑客户、环境、态度等当前和未来的属性,以确保工具能够适应这些变化。
3. 低估了获取数据的难度
通常,公司拥有大量要分类的多数数据,当他们需要挖掘少数数据时可能会遇到挑战。
例如,假设您正在构建一个查看智能手机图像的视觉分析工具。 您可能有 100 万张来自社交媒体的图片,涵盖各种类别,但您没有的是人们未上传的所有图片。
我的意思是人们通常将图像发布到他们喜欢的社交媒体上,质量和清晰度都相对较好。
但是,如果您的工具要查看手机图像,就会发现很多图像模糊、曝光过度、倾斜等。这些图像很难找到,因为您在哪里可以找到人们不发布的少数测试图像?
公司经常低估需要资源来填补的数据缺口数量。 这样,一个好的机器学习合作伙伴不仅会帮助您组织您拥有的数据,还会帮助您获取您没有的数据。
4. 最后,“Ron Popeil”谬误
换句话说:“一劳永逸”的谬论。
公司经常忘记,持续的管理和维护仍然需要人眼。
无论是低置信度结果、异常处理、审计还是使用强化数据进行优化,这些持续的工作流程都是保持工具新鲜和持续成功的关键。

4. 处理不当的 AI 培训会产生什么后果?
Vidya:我没有足够的手指和脚趾来计算客户来找我们的次数,因为他们低估了开发机器学习工具所需的计划、成本和范围。

最糟糕的是,因为任何程序的基础都是数据,客户可能会失去宝贵的时间和金钱,因为他们必须拆除原始数据集并重新开始。
如果你问一个 CEO 小组,他们都会告诉你,他们认为利用人工智能是未来竞争力的关键。
话虽如此,只有极少数公司实际为人工智能预算或将其作为战略规划过程的一部分。
所以对于那些把钱放在一边的公司来说,他们通常只有一次机会让它发挥作用。
处理不当的 AI 培训有时可能意味着公司在尝试失败后没有再投资的能力。 这可能意味着他们永远在追赶他们的竞争对手。
5. 在您看来,AI 训练数据如何在社会层面影响我们的一些最重要的例子是什么?
Vidya:我们正处于历史上的一个时期,人们逐渐意识到已经被编程到我们社会中的偏见。
种族、性别、年龄和更多虚假数据点被用于推动决策的时间太长了,我认为,次优选择阻碍了我们取得集体成就。
以一家金融公司为例,它希望使用机器学习工具来帮助缩小申请人的范围。
假设该公司使用其 20 年的历史员工数据来确定那些晋升最多、绩效评估最高的员工,然后查看他们在哪里上学、他们在加入公司之前的经历等。
乍一看,这可能很有道理,“让我们看看谁在我们公司取得了成功,并雇用更多这样的人”。
您的人力资源工具所忽视的是可能影响历史招聘和晋升决策的机构偏见。
- 男性比女性更有可能获得晋升。
- 与有色人种相比,白种人更有可能接受面试并最终被录用。
- 从历史上看,低收入少数民族在高等教育中的代表性不足,并且在一级学校的大学录取方面处于劣势。
在此示例中,数据集不完整,外部绩效数据必须与其他选择变量(如潜力)一起包括在内。
由一个有目的的多元化团队创造的有意设计的人工智能的魔力可以帮助我们消除偏见和盲点。
意识到如果我们愿意,我们可以让机器比我们更聪明,这是一件强大而解放的事情。
6. 您是女性主导的企业这一事实是否以及如何使您与竞争对手区分开来?
Vidya: TechSpeed 一直是由少数族裔女性领导的组织。
女性仅占所有 CEO 的 5%,而技术领域的少数高管女性几乎不存在。
正是因为这个原因,作为少数族裔女性拥有的企业使我们与众不同。 在一个男性主导的行业中,我们很自豪地举例说明女性领导如何能够带来不同的观点和解决方案。
我们从事数据业务; 我们正在教机器用它所提供的所有颜色和形状来看待世界。
我们的组织反映了我们寻求在我们的工作中反映的观点的多样性。
我是一个混血家庭中三个不同种族女孩的母亲。
多样性和女性赋权不是我们谈论的话题,而是我们是谁以及我们如何生活。

7. 现在,回到训练数据,从积极的一面来看,高质量的训练数据如何使人工智能产品受益,即拥有它的企业?
Vidya:从根本上说,经过深思熟虑的训练数据意味着更少的异常和错误。
投资机器学习和人工智能工具的主要原因是能够更快、更可靠地解决问题。
该行业的新手误称 AI 是自我推进的,并且可以完全自主。 然而,事实是,对于大多数公司来说,10-20% 的错误和异常仍然存在。
这桶低置信度或异常记录不是诅咒,而是机会。 可以“手动”处理和分析异常,然后可以将其转换为新的或更好的规则或逻辑。
8. 对于持续的数据质量保证,您建议采用什么流程? 如果有的话,您何时会建议将机器学习转变为完全自主运作? 人工智能的训练会结束吗?
Vidya:当然,在 AI 或机器学习程序的初始设置期间所需的繁重工作与持续维护所需的工作大不相同。
我们看到的是,最有效的持续程序包括某种持续的审计和异常处理。
对处理异常的持续审查和持续审计将识别计划中的机会和弱点。
无一例外,每个项目和每个数据集都揭示了最初未计划的细微差别,有时这些细微差别需要时间才能出现。
这样,计划就是一切,而计划又什么都不是。 内置审计可以让计划保持灵活,工具也很灵活。
虽然非常简单的工具当然有例外,但在大多数情况下,人工智能的工作从未真正结束,它只是在发展。
9. 最后,您预测 AI 训练数据优化的未来趋势是什么? 依赖人工智能的企业应该注意什么?
Vidya:现成的 AI/机器学习工具激增,而且每天都有更多的发布。
访问自助服务工具允许各种企业进行试验并开始利用他们的数据。
当然,这对行业和企业来说是件好事。 然而,正如我们之前所讨论的,如果没有高质量的数据和持续的支持,DIY 者可能会遇到问题。
公司想要运行他们自己的程序,但他们很少有能力组织起来并处理学习数据集。
这有时会导致数据集变小或以其他方式不足,最终导致模型错误。
这就是一个好的数据支持合作伙伴可以提供视角和可扩展的支持来帮助背后领导的地方。
研究人员中有一句老话:你问的问题越多,你意识到自己也需要答案的问题就越多。
随着公司寻求构建越来越复杂的机器学习程序,他们将继续发现他们手头上曾经开始的数据集已经不够用了。
数据挖掘以帮助填补 AI 逻辑的需求将继续扩大。 行业越成熟,对我们没有的数据的认识就越大。
虽然并非人工智能或机器学习所独有,但我认为我们正处于历史时期,人们正在重新评估他们对业务、客户和社区的看法。
作为现有产品、计划和战略支柱的假设和期望都在重新评估。
现在是公司以全新和包容的眼光看待现有和未来的人工智能和机器学习工具的时候了。
以前它是可选的,但现在是预期的,不进化的公司将被不可逆转地提高期望值的消费者甩在后面。
谢谢你,维迪亚!
想要将您的 AI/ML 解决方案提升到一个新的水平吗? 通过 [电子邮件保护] 或致电 503-291-0027 与 TechSpeed 取得联系。