论文阅读:Deep Learning for Detecting Robotic Grasps(2014)

来源:arXiv:1301.3592v6 [cs.LG] 21 Aug 2014

摘要

用深度学习的方法解决机器人抓取的问题,此问题主要需要面对两个挑战:第一个挑战是需要评估大量的候选抓取点,针对这个挑战提出了两个深层网络的级联系统,第一层的结果会被用于第二层的评估,其中第一层网络拥有较少的特征但是运行速度快,主要是用来排除不可能的候选点,第二层网络特征较多但是运行较慢,用来对第一层的结果进一步评估;第二个挑战需要处理多模态输入,针对这个挑战提出了一种基于多模态群正则化的权值结构化正则化方法。

介绍

重点就是1.用深度学习方法来检测机器人抓取(第一个这么做的);2.为处理多模态输入提供了一个新的方法;3.用于检测的多层级联系统,降低了计算量;4.性能好!5.用于了Baxter和PR2机器人,成功率分别达到了84%和89%。

系统和模型

在这里插入图片描述
首先从相机中获取RGB-D图像,并搜索可能的抓取位置(如从左到右第二个图),对于其中的每一个,它都会提取一组与颜色和深度图像以及表面法线相对应的原始特征,然后将这些特征作为深度网络的输入(应该就是之前所的第二层网络),对每个矩形进行评分。最后,选择排名靠前的矩形,并根据检测到的矩形及其中心的曲面法线参数执行相应的抓取。红色和绿色线对应夹持板,RGB-D特征中的蓝色表示屏蔽像素。
其中,每个搜索矩形都由其左上角的X和Y坐标、宽度、高度和图像平面中的方向参数化,为潜在的抓取提供了一个五维搜索空间。要想将右侧所示的矩形转换为抓取姿势,要找到矩形中心三分之一(水平)内的最小深度点,然后使用这个点周围的平均表面法线来确定夹持器的接近向量。检测到的矩形的方向被转换为围绕这个矢量的旋转,以定位夹持器。使用矩形中心的X-Y坐标以及最近点的深度来确定机器人坐标系中的抓取点。计算一个预抓取位置通过移动10厘米从抓取点沿这个接近矢量,并定位在这一点的抓取器,然后沿着接近矢量接近物体并抓住它。

两层级联检测

网络比较小的第一层用于详细的全部搜索,然后用较大的网络对第一层的结果进行重新排序。
网络模型采用的是两个隐藏层的全连接网络,激活函数用的是sigmod函数,最后一层是逻辑分类器。
在这里插入图片描述在这里插入图片描述
两层网络都是这个架构,只是中间的神经元个数不一样。
然后还进行了权重初始化,使用的是稀疏自动编码器(SAE)的变体,这个我不是很懂,大概结构就是
在这里插入图片描述
在这里插入图片描述

系统详情

  1. 图片大小为24x24,有7个通道,共有24x24x7 = 4032个输入特征。其中有三个通道是彩色图像的三通道,第四个通道是深度通道,最后三个是基于深度通道计算的表面法线的X、Y和Z分量,这三个是在图像对齐到夹持器后计算的。
  2. 数据预处理:数据美白。特别是深度数据,可能很难进行增白,因为图像中的不同补丁的值范围可能非常不同。因此,首先分别漂白每个深度补丁,减去补丁的平均值,并除以补丁的标准差,直到某个最小值。对于多模态数据,每个模态的数据统计应该尽可能地匹配,以避免学习特征偏向于或不使用特定的模态。
  3. 保留纵横比 …

特征学习的结构正则化(应该就是针对多模态数据输入)

在这里插入图片描述

  1. 第一种也是最简单的方式,就是忽略特定模态的信息,把数据当作普通的输入,如图最左边。但是这样会导致两个问题:过早地学习包括所有模态的特征,这可能导致过拟合;无法学习具有非常不同基础统计的模态之间的关联。
  2. 第二种就是先把不同模态的底层特征单独训练,高层特征才是混合的多模态。这种方式对于不同模态的表示方式完全不同时会有更好的效果,比如视频音频数据。但是对于RGB-D这种多模态数据(代表图像的不同通道),不一定有很好的效果,相反的,学习低级相关性可以导致更健壮的特征。
  3. 为了解决这些问题,提出了一种新的多模态数据特征学习算法。此方法将结构化惩罚项融入到优化问题中,在学习过程中求解。该技术允许模型学习多个输入模态之间的相关特征,但规范了每个特征(隐藏单元)使用的模态数量,阻止模型学习模态之间的弱相关性。有了这个正则化项,算法可以指定特征的模式稀疏或模式密集程度,表示上述两个极端之间的连续统。如图最右边。

中间的实验部分就没有仔细看了 主要是大概描述一下这篇文章的工作!

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>