2024年6月17日星期一

科学家研发新AI技术:无需人工标注,快速定位视频中特定动作

互联网上充斥着各种教学视频,好奇的观众可以学到从烹饪完美的煎饼到执行救命的海姆立克急救法等各种技能。但是,在长视频中精确定位特定动作发生的时间和地点可能非常繁琐。为了简化这个过程,科学家们正尝试教计算机执行这项任务。理想情况下,用户只需描述他们正在寻找的动作,AI模型就会跳转到视频中的相应位置。


然而,训练机器学习模型执行此操作通常需要大量昂贵的手工标记的视频数据。麻省理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员采用了一种新的、更高效的方法,仅使用视频及其自动生成的文字记录来训练模型执行这项被称为时空定位的任务。论文链接

研究人员通过两种不同的方式教模型理解未标记的视频:一是观察细节以确定物体的位置(空间信息),二是观察大局以了解动作发生的时间(时间信息)。与其他AI方法相比,他们的方法在识别较长视频中具有多个活动的动作方面更为准确。有趣的是,他们发现同时在空间和时间信息上进行训练使模型更擅长分别识别每一个。


除了简化在线学习和虚拟培训过程外,这种技术还可以在医疗环境中发挥作用,例如通过快速查找诊断程序视频中的关键时刻。


"我们将试图一次性编码空间和时间信息的挑战分解开来,而是将其视为两个独立工作的专家,这被证明是编码信息的更明确的方式。我们的模型结合了这两个独立的分支,从而实现了最佳性能,"该技术的论文主要作者Brian Chen说。


陈是2023年哥伦比亚大学的毕业生,他在麻省理工学院-IBM沃森人工智能实验室担任访问学生期间进行了这项研究。与他共同撰写论文的还有詹姆斯·格拉斯(James Glass),他是麻省理工学院-IBM沃森人工智能实验室的高级研究科学家、成员以及计算机科学与人工智能实验室(CSAIL)口语系统小组的负责人;Hilde Kuehne,她是麻省理工学院-IBM沃森人工智能实验室的成员,也与法兰克福歌德大学有关联;以及麻省理工学院、歌德大学、麻省理工学院-IBM沃森人工智能实验室和质量匹配有限公司的其他人员。这项研究将在计算机视觉与模式识别会议上发表。论文链接


全局和局部学习

研究人员通常使用人类注释了特定任务开始和结束时间的视频来教模型执行时空定位。不仅生成这些数据成本高昂,而且人类很难确切地知道要标记什么。如果动作是"烹饪煎饼",那么这个动作是从厨师开始搅拌面糊时开始的,还是当她把面糊倒进锅里时开始的?


"这次的任务可能是关于烹饪的,但下次可能是关于修车的。有这么多不同的领域供人们注释。但如果我们能在不标记的情况下学到一切,这将是一个更通用的解决方案,"陈说。


对于他们的方法,研究人员使用来自YouTube等网站的无标签教学视频和随附的文字记录作为训练数据。这些不需要任何特殊准备。他们将训练过程分为两部分。一方面,他们教机器学习模型观看整个视频以了解特定时间发生的动作。这种高层次的信息称为全局表示。另一方面,他们教模型关注视频中发生动作的特定区域。例如,在一个大厨房里,模型可能只需要关注厨师用来搅拌煎饼面糊的木勺,而不是整个柜台。这种细粒度的信息称为局部表示。


研究人员还在框架中加入了一个额外的组件,以减轻叙述和视频之间出现的错位。也许厨师先谈论烹饪煎饼,然后执行动作。为了开发更现实的解决方案,研究人员专注于几分钟长的未经剪辑的视频。相比之下,大多数AI技术使用几秒钟的剪辑进行训练,这些剪辑是某人剪切出来只显示一个动作的。


新基准测试


但在评估他们的方法时,研究人员找不到一个有效的基准测试来测试这种较长、未经剪辑的视频上的模型——所以他们创建了一个。


为了构建他们的基准数据集,研究人员设计了一种新的注释技术,适用于识别多步骤动作。他们让用户标记物体之间的交点,比如刀刃切番茄的点,而不是围绕重要物体画框。"这样定义更清晰,加快了注释过程,减少了人力和成本,"陈说。此外,让多个人在同一部视频上进行点注释可以更好地捕捉随时间发生的动作,如牛奶流动的情景。所有注释者都不会在液体流动中标记完全相同的点。


当使用这个基准测试来测试他们的方法时,研究人员发现它在精确定位动作方面比其他AI技术更准确。他们的方法也更擅长关注人与物体的互动。例如,如果动作是"端上煎饼",许多其他方法可能只关注关键物体,如放在柜台上的煎饼堆。相反,他们的方法关注的是厨师将煎饼翻到盘子上的实际时刻。

现有方法严重依赖人类标记的数据,因此可扩展性不强。这项工作通过提供使用其中自然发生的语音对事件进行空间和时间定位的新方法,向解决这个问题迈出了一步。这种类型的数据无处不在,因此在理论上它将成为一个强大的学习信号。然而,它与屏幕上显示的内容往往毫无关联,这使得在机器学习系统中使用它变得困难。这项工作有助于解决这个问题,使研究人员更容易在未来创建使用这种多模态数据的系统。"密歇根大学电气工程与计算机科学助理教授Andrew Owens说,他没有参与这项工作。


接下来,研究人员计划增强他们的方法,使模型能够自动检测文本和叙述何时不对齐,并在不同模态之间切换焦点。他们还希望将框架扩展到音频数据,因为动作和物体发出的声音之间通常存在强烈的相关性。论文链接


"AI研究在创建像ChatGPT这样的理解图像的模型方面取得了令人难以置信的进展。但我们在理解视频方面的进步远远落后。这项工作代表了这个方向的重大进步,"波士顿大学计算机科学系教授Kate Saenko说,她没有参与这项工作。


这项研究部分由麻省理工学院-IBM沃森人工智能实验室资助。论文链接


没有评论:

发表评论

时间在哪里,收益就在哪里

纸上得来终觉浅,绝知此事要躬行,期待我们躬身入局,愿每位老铁都能在Web3中收获满满空投大毛哦! 前言-------------------------------------- Web3撸空投是投入产出比较高的一种方式。它主打一个以小搏大,风险小,收益高,花少量的 gas ...