训练算法时,“假数据”是真的吗? | 人工智能 (AI)

s你在开车,但你很累。 你的肩膀开始下垂,你的脖子开始下垂,你的眼皮向下滑动。 当你的头向前走时,偏离道路并加速进入一片田野,撞到一棵树上。

但是,如果您的车辆监控系统识别出困倦的迹象并提示您离开道路并改为停车怎么办? 欧盟委员会已通过立法,从今年开始,新车将配备系统,以捕捉分心和昏昏欲睡的司机,以帮助避免事故。 现在,许多初创公司正在训练人工智能系统来识别面部表情和肢体语言中的天赋。

这些公司正在采用一种新的人工智能方法。 他们没有拍摄数千名真正的司机在睡觉时拍摄并将这些信息轻弹到深度学习模型中以“学习”困倦的迹象,而是创建了数百万个假人类头像来重新激活睡眠信号。

“大数据”定义人工智能领域是有原因的。 为了准确地训练深度学习算法,模型需要很多数据点。 这给诸如识别睡在方向盘上的人之类的任务带来了问题,而要拍摄成千上万辆汽车中发生的照片将是困难且耗时的。 相反,公司已经开始构建虚拟数据集。

人工智能.综合数据 两家公司正在使用全身 3D 扫描,包括详细的面部扫描,以及由遍布全身的传感器捕获的运动数据,以收集真人的原始数据。 这些数据通过多次调整不同维度的算法提供,以创建数百万个人类的 3D 表示,这些表示类似于视频游戏中的角色,在各种模拟中参与不同的行为。

如果有人在方向盘上睡着了,他们可能会描绘一个正在睡觉的人类表演者,并将其与动作捕捉、3D 动画和其他用于创建视频游戏和动画电影的技术相结合,以构建所需的模拟。 “你可以映射 [the target behaviour] Synthesis AI 的首席执行官 Yashar Behzadi 说:

使用合成数据消除了训练深度学习算法的传统方式中的大量混乱。 通常情况下,公司必须将大量逼真的快照放在一起,而低薪工人会煞费苦心地为每个片段命名。 他们将被输入到模型中,该模型将学习识别行为。

合成数据方法的最大卖点是它更快、更便宜。 但这些公司也声称他们可以帮助解决给 AI 开发人员带来严重头痛的偏见。 有据可查的是,一些人工智能面部识别软件在识别和正确识别某些人口群体方面表现不佳。 这往往意味着这些群体在训练数据中的代表性不足,这意味着该程序更有可能错误地识别这些人。

综合机器学习中的软件工程师和性别和种族偏见专家 Niharika Jain 强调了 Nikon Coolpix 的“眨眼检测”功能的臭名昭著的例子,鉴于训练数据包括大多数白人面孔,不成比例地判断亚洲面孔眨眼。。 “一个好的驾驶员监控系统应该避免将某个人口群体的成员误认为比其他人更困,”她说。

对这个问题的典型反应是从现实生活中代表性不足的群体收集更多数据。 但像 Datagen 这样的公司表示,这不再是必要的。 该公司可以简单地从代表性不足的群体中创建更多面孔,这意味着他们将占最终数据集的更大比例。 来自数千人的逼真 3D 面部扫描数据被转化为数百万辆 AI 车辆。 Datagen 的联合创始人吉尔·埃尔巴兹 (Jill Elbaz) 说:“数据中没有隐藏任何偏见;你可以完全控制生成的人的年龄、性别和种族。”出现的可怕面孔看起来不像真人,但该公司声称它们足够相似,可以教 AI 系统如何在类似场景中对真实的人做出反应。

然而,关于合成数据是否真的能消除偏见存在一些争论。 华盛顿大学电子科学研究所的数据科学家 Bernice Hermann 表示,尽管合成数据可以提高无人代表群体中面部识别模型的鲁棒性,但她认为单独的合成数据并不能弥合这些群体的表现与表现。 其他。 尽管公司有时会发表学术论文来展示其算法的工作原理,但算法本身是专有的,因此研究人员无法独立评估它们。

在虚拟现实和机器人等领域,3D 映射很重要,合成数据公司认为,在模拟中训练 AI 可能会更好,特别是随着 3D 建模、视觉效果和游戏技术的改进。 “这只是时间问题……您可以创建这些虚拟世界并在模拟中训练您的整个系统,”Behzadi 说。

这种想法在自动驾驶汽车行业中得到了普及,合成数据在向自动驾驶汽车教授人工智能如何在道路上导航方面变得有用。 传统的方法——捕捉数小时的驾驶镜头并将其融合到深度学习模型中——足以让汽车相对擅长在道路上行驶。 但业内恼人的问题是如何让汽车可靠地处理所谓的“边缘状态”——这些事件非常罕见,以至于它们不会经常出现在数百万小时的训练数据中。 比如在马路上奔跑的小孩或狗,复杂的道路作业,甚至一些交通锥放置在意想不到的位置,这就足够了 扔Waymo无人驾驶汽车 2021 年在亚利桑那州。

由datagen制作的人造人脸。
由datagen制作的人造人脸。

使用合成数据,公司可以在虚拟世界中创建在现实世界中很少发生的无限形式的场景。 卡内基梅隆大学电气和计算机工程副教授 Phil Koopman 说:“他们无需等待数百万英里的额外时间来编译更多示例,而是可以从复杂的案例中人为地创建尽可能多的示例以进行培训和测试。”

Waymo、Cruise 和 Wayve 等 AV 公司越来越依赖现实生活中的数据以及虚拟世界中的模拟驾驶。 Waymo 使用从其自动驾驶车辆收集的人工智能和传感器数据创建了一个模拟世界,其中包括人造雨滴和太阳耀斑。 这用于训练车辆以适应正常驾驶情况以及具有挑战性的情况。 2021 年,Waymo 边说 它模拟了 150 亿英里的驾驶,而实际驾驶只有 2000 万英里。

首先在虚拟世界中测试自动驾驶汽车的另一个​​好处是减少发生非常真实的事故的机会。 “自动驾驶仪在众多合成数据项中处于领先地位的主要原因之一是容错性,”Hermann 说。 “一辆自动驾驶汽车的错误率为 1%,甚至 0.01%,这可能太多了。”

2017 年,沃尔沃的自动驾驶技术曾被教导如何应对鹿等北美大型动物,但在澳大利亚第一次遇到袋鼠时,就感到莫名其妙。 “如果模拟器对袋鼠一无所知,那么在测试中看到它并且设计者弄清楚如何添加它之前,再多的模拟器都不会创建它,”Koopman 说。 对于宾夕法尼亚大学计算机和认知科学教授 Aaron Roth 来说,挑战将是创建与真实数据无法区分的合成数据。 他认为我们在那个时候处理面部数据是有道理的,计算机现在可以创建逼真的面部图像。 “但对于很多其他事情”——可能包括也可能不包括袋鼠——“我认为我们还没有做到这一点。”

#训练算法时假数据是真的吗 #人工智能

Leave a Comment

Your email address will not be published. Required fields are marked *