在机器学习中合成数据可以提供真正的性能改进

导读 教机器识别人类行为有许多潜在的应用,例如自动检测在建筑工地跌倒的工人或使智能家居机器人能够解释用户的手势。为此,研究人员使用显示人

教机器识别人类行为有许多潜在的应用,例如自动检测在建筑工地跌倒的工人或使智能家居机器人能够解释用户的手势。

为此,研究人员使用显示人类执行动作的大量视频片段数据集来训练机器学习模型。然而,收集和标记数百万或数十亿个视频不仅成本高昂且费力,而且剪辑通常包含敏感信息,例如人脸或车牌号。使用这些视频还可能违反版权法或数据保护法。这假设视频数据首先是公开的——许多数据集归公司所有,不能免费使用。

因此,研究人员正在转向合成数据集。这些是由一台计算机制作的,它使用场景、物体和人类的3D模型来快速制作各种特定动作的剪辑——没有真实数据带来的潜在版权问题或道德问题。

但是合成数据和真实数据一样“好”吗?当要求对真实的人类行为进行分类时,使用这些数据训练的模型的表现如何?麻省理工学院、麻省理工学院-IBM沃森人工智能实验室和波士顿大学的一组研究人员试图回答这个问题。他们构建了一个包含150,000个视频片段的合成数据集,这些片段捕捉了广泛的人类行为,他们将其用于训练机器学习模型。然后,他们向这些模型展示了六个真实世界视频的数据集,以了解它们如何学会识别这些剪辑中的动作。

研究人员发现,对于背景对象较少的视频,综合训练模型的表现甚至优于根据真实数据训练的模型。

这项工作可以帮助研究人员使用合成数据集,使模型在现实世界的任务中实现更高的准确性。它还可以帮助科学家确定哪些机器学习应用程序最适合使用合成数据进行训练,以减轻使用真实数据集的一些道德、隐私和版权问题。

“我们研究的最终目标是用合成数据预训练代替真实数据预训练。在合成数据中创建一个动作是有成本的,但一旦完成,你就可以通过改变姿势、光照等来生成无限的图像或视频。这就是合成数据的美妙之处,”首席科学家RogerioFeris说,麻省理工学院-IBM沃森人工智能实验室的经理,以及一篇详细介绍这项研究的论文的合著者。

该论文由主要作者Yo-whan“John”Kim'22撰写;AudeOliva,麻省理工学院苏世民计算学院战略产业参与主任,麻省理工学院-IBM沃森人工智能实验室主任,计算机科学与人工智能实验室(CSAIL)高级研究科学家;和其他七个。该研究将在神经信息处理系统会议上发表。

研究人员首先使用三个公开可用的捕捉人类行为的合成视频剪辑数据集编译了一个新数据集。他们的合成动作预训练和迁移(SynAPT)数据集包含150个动作类别,每个类别有1,000个视频剪辑。

他们选择了尽可能多的动作类别,例如人们挥手或倒在地上,具体取决于包含干净视频数据的剪辑的可用性。

准备好数据集后,他们用它来预训练三个机器学习模型来识别动作。预训练涉及为一项任务训练模型,使其在学习其他任务时抢占先机。受人们学习方式的启发——当我们学习新事物时,我们会重复使用旧知识——预训练模型可以使用它已经学到的参数来帮助它更快、更有效地学习新任务和新数据集。

他们使用六个真实视频片段的数据集测试了预训练模型,每个数据集都捕获了与训练数据中不同的动作类别。

研究人员惊讶地发现,在六个数据集中的四个数据集上,所有三个合成模型的表现都优于用真实视频剪辑训练的模型。对于包含具有“低场景对象偏差”的视频剪辑的数据集,它们的准确性最高。

低场景对象偏差意味着模型无法通过查看场景中的背景或其他对象来识别动作——它必须关注动作本身。例如,如果模型的任务是对人们跳入游泳池的视频片段中的潜水姿势进行分类,则它无法通过观察水或墙上的瓷砖来识别姿势。它必须关注人的动作和位置来对动作进行分类。

“在具有低场景对象偏差的视频中,动作的时间动态比对象或背景的外观更重要,而且合成数据似乎很好地捕捉到了这一点,”Feris说。

“高场景对象偏差实际上会成为一个障碍。该模型可能会通过查看对象而不是操作本身来对操作进行错误分类。它可能会混淆模型,”Kim解释道。

提高性能

基于这些结果,研究人员希望在未来的工作中包括更多的动作类和额外的合成视频平台,最终创建一个模型目录,这些模型已经使用合成数据进行了预训练,共同作者,麻省理工学院的研究人员RameswarPanda说-IBM沃森人工智能实验室。

他补充说:“我们希望构建的模型与文献中的现有模型具有非常相似的性能甚至更好的性能,但不受任何这些偏见或安全问题的约束。”

他们还希望将他们的工作与旨在生成更准确和逼真的合成视频的研究结合起来,这可以提高模型的性能,共同作者和CSAIL博士后SouYoungJin说。她还对探索模型在使用合成数据进行训练时的学习方式有何不同感兴趣。

“我们使用合成数据集来防止隐私问题或上下文或社会偏见,但模型实际上学到了什么?它学到的东西是公正的吗?”她说。

既然他们已经证明了合成视频的这种使用潜力,他们希望其他研究人员能够在他们的工作基础上再接再厉。

在机器学习中合成数据可以提供真正的性能改进

教机器识别人类行为有许多潜在的应用,例如自动检测在建筑工地跌倒的工人或使智能家居机器人能够解释用户的手势。

为此,研究人员使用显示人类执行动作的大量视频片段数据集来训练机器学习模型。然而,收集和标记数百万或数十亿个视频不仅成本高昂且费力,而且剪辑通常包含敏感信息,例如人脸或车牌号。使用这些视频还可能违反版权法或数据保护法。这假设视频数据首先是公开的——许多数据集归公司所有,不能免费使用。

因此,研究人员正在转向合成数据集。这些是由一台计算机制作的,它使用场景、物体和人类的3D模型来快速制作各种特定动作的剪辑——没有真实数据带来的潜在版权问题或道德问题。

但是合成数据和真实数据一样“好”吗?当要求对真实的人类行为进行分类时,使用这些数据训练的模型的表现如何?麻省理工学院、麻省理工学院-IBM沃森人工智能实验室和波士顿大学的一组研究人员试图回答这个问题。他们构建了一个包含150,000个视频片段的合成数据集,这些片段捕捉了广泛的人类行为,他们将其用于训练机器学习模型。然后,他们向这些模型展示了六个真实世界视频的数据集,以了解它们如何学会识别这些剪辑中的动作。

研究人员发现,对于背景对象较少的视频,综合训练模型的表现甚至优于根据真实数据训练的模型。

这项工作可以帮助研究人员使用合成数据集,使模型在现实世界的任务中实现更高的准确性。它还可以帮助科学家确定哪些机器学习应用程序最适合使用合成数据进行训练,以减轻使用真实数据集的一些道德、隐私和版权问题。

“我们研究的最终目标是用合成数据预训练代替真实数据预训练。在合成数据中创建一个动作是有成本的,但一旦完成,你就可以通过改变姿势、光照等来生成无限的图像或视频。这就是合成数据的美妙之处,”首席科学家RogerioFeris说,麻省理工学院-IBM沃森人工智能实验室的经理,以及一篇详细介绍这项研究的论文的合著者。

该论文由主要作者Yo-whan“John”Kim'22撰写;AudeOliva,麻省理工学院苏世民计算学院战略产业参与主任,麻省理工学院-IBM沃森人工智能实验室主任,计算机科学与人工智能实验室(CSAIL)高级研究科学家;和其他七个。该研究将在神经信息处理系统会议上发表。

研究人员首先使用三个公开可用的捕捉人类行为的合成视频剪辑数据集编译了一个新数据集。他们的合成动作预训练和迁移(SynAPT)数据集包含150个动作类别,每个类别有1,000个视频剪辑。

他们选择了尽可能多的动作类别,例如人们挥手或倒在地上,具体取决于包含干净视频数据的剪辑的可用性。

准备好数据集后,他们用它来预训练三个机器学习模型来识别动作。预训练涉及为一项任务训练模型,使其在学习其他任务时抢占先机。受人们学习方式的启发——当我们学习新事物时,我们会重复使用旧知识——预训练模型可以使用它已经学到的参数来帮助它更快、更有效地学习新任务和新数据集。

他们使用六个真实视频片段的数据集测试了预训练模型,每个数据集都捕获了与训练数据中不同的动作类别。

研究人员惊讶地发现,在六个数据集中的四个数据集上,所有三个合成模型的表现都优于用真实视频剪辑训练的模型。对于包含具有“低场景对象偏差”的视频剪辑的数据集,它们的准确性最高。

低场景对象偏差意味着模型无法通过查看场景中的背景或其他对象来识别动作——它必须关注动作本身。例如,如果模型的任务是对人们跳入游泳池的视频片段中的潜水姿势进行分类,则它无法通过观察水或墙上的瓷砖来识别姿势。它必须关注人的动作和位置来对动作进行分类。

“在具有低场景对象偏差的视频中,动作的时间动态比对象或背景的外观更重要,而且合成数据似乎很好地捕捉到了这一点,”Feris说。

“高场景对象偏差实际上会成为一个障碍。该模型可能会通过查看对象而不是操作本身来对操作进行错误分类。它可能会混淆模型,”Kim解释道。

提高性能

基于这些结果,研究人员希望在未来的工作中包括更多的动作类和额外的合成视频平台,最终创建一个模型目录,这些模型已经使用合成数据进行了预训练,共同作者,麻省理工学院的研究人员RameswarPanda说-IBM沃森人工智能实验室。

他补充说:“我们希望构建的模型与文献中的现有模型具有非常相似的性能甚至更好的性能,但不受任何这些偏见或安全问题的约束。”

他们还希望将他们的工作与旨在生成更准确和逼真的合成视频的研究结合起来,这可以提高模型的性能,共同作者和CSAIL博士后SouYoungJin说。她还对探索模型在使用合成数据进行训练时的学习方式有何不同感兴趣。

“我们使用合成数据集来防止隐私问题或上下文或社会偏见,但模型实际上学到了什么?它学到的东西是公正的吗?”她说。

既然他们已经证明了合成视频的这种使用潜力,他们希望其他研究人员能够在他们的工作基础上再接再厉。