语言模型“不务正业”做起目标,性能还比 detr、faster r-cnn 更好
优质回答:长期以来,cnn 都是解决目标检测任务的经典方法。
就算是引入了 transformer 的 detr,也是结合 cnn 来预测最终的检测结果的。
但现在,geoffrey hinton 带领谷歌大脑团队提出的新框架pix2seq,可以完全用语言建模的方法来完成目标检测。
团队由图像像素得到一种对目标对象的 " 描述 ",并将其作为语言建模任务的输入。然后让模型去学习并掌握这种 " 语言 ",从而得到有用的目标表示。
最后取得的结果基本与faster r-cnn、detr相当,对于小型物体的检测优于 detr,在大型物体检测上的表现也比 faster r-cnn 更好,。
接下来就来具体看看这一模型的架构。
从物体描述中构建序列
pix2seq 的处理流程主要分为四个部分:
图像增强
序列的构建和增强
编码器 - 解码器架构
目标 / 损失函数
首先,pix2seq 使用图像增强来丰富一组固定的训练实例。
然后是从物体描述中构建序列。
一张图像中常常包含多个对象目标,每个目标可以视作边界框和类别标签的集合。
将这些对象目标的边界框和类别标签表达为离散序列,并采用随机排序策略将多个物体排序,最后就能形成一张特定图像的单一序列。
也就是开头所提到的对 " 描述 " 目标对象的特殊语言。
其中,类标签可以自然表达为离散标记。
边界框则是将左上角和右下角的两个角点的 x,y 坐标,以及类别索引 c 进行连续数字离散化,最终得到五个离散 token 序列:
研究团队对所有目标采用共享词表,这时表大小=bins 数 类别数。
这种量化机制使得一个 600 × 600 的图像仅需 600bins 即可达到零量化误差,远小于 32k 词表的语言模型。
接下来,将生成的序列视为一种语言,然后引入语言建模中的通用框架和目标函数。
这里使用编码器 - 解码器架构,其中编码器用于感知像素并将其编码为隐藏表征的一般图像,生成则使用 transformer 解码器。
和语言建模类似,pix2seq 将用于预测并给定图像与之前的 token,以及最大化似然损失。
在推理阶段,再从模型中进行 token 采样。
为了防止模型在没有预测到所有物体时就已经结束,同时平衡精确性(ap)与召回率(ar),团队引入了一种序列增强技术:
这种方法能够对输入序列进行增广,同时还对目标序列进行修改使其能辨别噪声 token,有效提升了模型的鲁棒性。
在小目标检测上优于 detr
团队选用 ms-coco 2017 检测数据集进行评估,这一数据集中含有包含 11.8 万训练图像和 5 千验证图像。
与 detr、faster r-cnn 等知名目标检测框架对比可以看到:
pix2seq 在小 / 中目标检测方面与 faster r-cnn 性能相当,但在大目标检测方面更优。
而对比 detr,pix2seq 在大 / 中目标检测方面相当或稍差,但在小目标检测方面更优。
一作华人
这篇论文来自图灵奖得主 geoffrey hinton 带领的谷歌大脑团队。
一作 ting chen 为华人,本科毕业于北京邮电大学,2019 年获加州大学洛杉矶分校(ucla)的计算机科学博士学位。
他已在谷歌大脑团队工作两年,目前的主要研究方向是自监督表征学习、有效的离散结构深层神经网络和生成建模。
论文:
https://arxiv.org/abs/2109.10852
— 完 —
榜单征集!6 大奖项锁定 ai top 企业
「2021 中国人工智能年度评选」报名中!本次评选将从公司、人物、产品三大维度寻找优秀的 ai 企业,欢迎大家扫码报名参与。评选将于 12 月揭晓,期待与百万从业者们,共同见证这些优秀企业的荣誉!
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
还没有评论,来说两句吧...