首页 >> 史逸欣

AVID增强机器人模仿学习的框架田路路

时间:2022/10/22 00:57:00 编辑:

AVID:增强机器人模仿学习的框架

近年来,全球的研究团队一直在使用强化学习来教机器人如何完成各种任务。但是,训练这些算法可能非常具有挑战性,因为在正确定义机器人要完成的任务时还需要大量的人力。

教机器人如何完成特定任务的一种方法是通过人类演示尽管这看起来很简单,但是可能很难实现,主要是因为机器人和人类的身体非常不同,因此他们能够进行不同的移动。

加州大学伯克利分校的研究人员最近开发了一个新的框架,该框架可以帮助克服通过模仿学习训练机器人时遇到的一些挑战。他们的框架AVID基于先前研究中开发的两个深度学习模型。

“在开发AVID时,我们主要建立在CycleGAN和SOLAR这两项最新工作的基础上,它们引入了解决基本局限性的方法,这些局限性使得人们无法从域转换中的人类视频中学习,也无法通过视觉输入在物理机器人上进行训练。”进行这项研究的研究人员之一,告诉TechXplore。

Smith和她的同事们没有使用没有考虑到机器人与人类用户的身体之间的差异的技术,而是使用了Cycle-GAN,该技术可以在像素级别上转换图像。他们使用Cycle-GAN,将人类如何完成给定任务的演示转换成完成同一任务的机器人的视频。然后,他们使用这些视频为RL算法开发了奖励功能。

由模型生成的翻译的样本静止图像。图片来源:Smith等。

Smith解释说:“ AVID的工作原理是让机器人观察人类执行某些任务,然后想象自己完成相同任务的样子。” “要学习如何真正实现这一想象中的成功,我们让机器人通过反复试验来学习。”

借助Smith和她的同事们开发的框架,机器人可以一次学习一个阶段的任务,重置每个阶段并再次尝试,而无需人工干预。因此,学习过程在很大程度上变得自动化,而机器人只需最少的人工干预就能学习新技能。

“我们的方法的主要优势在于,人类老师可以在学习过程中与机器人学生互动,”史密斯解释说。“此外,我们将培训框架设计为适合于以最小的努力来学习长期行为。”

研究人员在一系列试验中评估了他们的方法,发现它可以有效地教机器人如何完成复杂的任务,例如操作咖啡机,只需处理20分钟的原始人类演示视频并练习180分钟的新技能即可。此外,AVID优于所有其他技术,包括模仿消融,像素空间消融和行为克隆方法。

史密斯说:“我们发现,我们可以利用CycleGAN有效地使机器人可以理解人类演示的视频,而无需繁琐的数据收集过程。” “我们还表明,利用时间扩展任务的多阶段性质,我们可以学习健壮的行为,同时使培训变得容易。我们认为我们的工作是朝着使自动驾驶机器人的实际部署触手可及的方向迈出的重要一步,因为它为我们提供了自然,直观的方式来教他们。”

Smith和她的同事们引入的新的学习框架实现了另一种类型的模仿学习,在这种模仿学习中,机器人一次学习一次完成一个更高层次的目标,并专注于在每个步骤中发现的最大挑战。而且,代替了在每次练习后都要求人类用户重设场景的功能,它允许机器人自动重设场景并继续练习。将来,AVID可以增强模仿学习过程,从而使开发人员可以更快,更有效地训练机器人。

“到目前为止,我们工作的主要限制之一是,对于机器人可能遇到的每个新场景,我们都需要对CycleGAN进行数据收集和培训。我们希望能够将CycleGAN培训视为一次性的前期费用,例如只要对大量数据进行一次训练,就可以使机器人通过一些演示和一点练习就可以很快掌握各种技能。”

福州婴儿及儿童期癫痫医院

山西输尿管结石医院

上海仁爱医院科普视频

乌鲁木齐狂躁症医院

石家庄小阴唇肥大医院

相关资讯