>娱乐>>正文

开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建

原标题:开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建

开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建(特约点评:单个RGB图像的整体三维场景解析与重建对于三维场景解析与重建提供了新的思路,这个创新点趣说人工智能必须推荐。来自网友笑笑的推荐!)

开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建摘要:我们提出了一种计算框架,用于联合解析单个RGB图像,并使用随机语法模型重建由一组CAD模型组成的整体3D配置。具体来说,我们引入了一个整体场景语法(HSG)来表示3D场景结构,它表征了室内场景的功能和几何空间上的联合分布。拟议的HSG捕获了室内场景的三个基本和潜在的维度:i)潜在的人类背景,描述房间布局的可供性和功能,ii)场景配置的几何约束,以及iii)物理约束,保证物理上合理的解析和重建。我们以综合分析的方式解决这个联合解析和重建问题,寻求在深度,表面法线和对象分割的空间上最小化输入图像和由我们的3D表示生成的渲染图像之间的差异。地图。使用马尔可夫链蒙特卡罗(MCMC)推断出由解析图表示的最优配置,其有效地遍历不可微分解空间,共同优化对象定位,3D布局和隐藏的人类背景。实验结果表明,该算法提高了通用化能力,在三维布局估计,三维物体检测和整体场景理解方面明显优于现有方法。

开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建简介:人类视觉的复杂性和丰富性不仅体现在识别可见物体的能力上,而且体现在潜在的可操作信息[1]上,包括推断潜在的人类语境作为场景的功能[2,3]。 ,重建三维分层几何结构[4,5],并遵守物理约束,保证物理上合理的场景配置[6]。对室内场景的这种丰富的理解是构建智能计算系统的本质,其超越了主要的基于外观和几何的识别任务,以考虑对观察到的图像或图案的更深层次的推理。

一个有希望的方向是合成分析[7]或“视觉反转图形”[8,9]。在这个范例中,计算机视觉被视为与计算机图形相反的逆问题,其目标是对产生观察图像的物理过程中发生的隐藏因素进行逆向工程。

贡献:在本文中,我们将视觉概念作为逆图形,并提出了一种整体3D室内场景解析和重建算法,可以从单个RGB图像同时重建室内场景的功能层次和3D几何结构。图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议,并通过比较从恢复的3D结构渲染的各种投影(即,深度,法线和分割)与从输入图像直接估计的投影来推断3D结构。

具体来说,我们引入一个整体场景语法(HSG)来表示场景的层次结构。如图2所示,我们的HSG将场景分解为功能空间中的潜在组(即,包括活动组的分层结构)和几何空间中的对象实例(即,CAD模型)。对于功能空间,与仅模拟物 - 物关系的传统方法相比,我们提出了一种通过在活动组中想象潜在的人来进一步帮助解释和解析观察到的图像来模拟人 - 物关系的新方法。对于几何空间,采用各个对象的几何属性(例如,大小,位置,方向)考虑因素,以及它们之间的几何关系(例如,支持关系)。另外,结合物理约束(例如,对象之间的碰撞,违反布局)以生成对观察图像进行物理上可信的3D解析和重建。

这里,室内场景由语法的解析图(pg)表示,其由终端节点上的分层结构和马尔可夫随机场(MRF)组成,其捕获对象和房间布局之间的丰富上下文关系(即,房间配置的墙壁,地板和天花板)。

设计最大后验概率(MAP)估计以找到解析和重建观察图像的最优解。可能性测量观察图像与从推断的pg投影到各种2D图像空间上的渲染图像之间的相似性。因此,可以通过基于后验概率的模拟退火对MCMC进行采样来迭代地细化pg。我们通过将重建的3D室内房间与地面实况进行比较来评估我们在大规模RGB-D数据集上的方法。

开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建相关工作,场景解析:现有的场景解析方法分为两个流。 i)判别方法[10-16]将每个像素分类为语义标签。虽然先前的工作在标记像素方面已经达到了高精度,但是这些方法缺乏视觉词汇的一般表示和探索一般场景的语义结构的主要方法。 ii)生成方法[17-24]可以提取场景结构,使其更接近人类可解释的场景结构,实现机器人,VQA等潜在应用。在本文中,我们将这两个流组合在一个分析中 - 合成框架,用于推断生成图像的隐藏因素。

来自单个图像的场景重建:来自单个RGB图像的室内场景重建的先前方法[25-27]可以被分类为三个流。 i)通过提取几何特征并对3D立方体建议进行排序来预测2D或3D房间布局[28-35]。 ii)通过几何图元或CAD模型表示对象,先前的方法[36-44]利用3D对象识别或姿势估计来将对象提议与RGB或深度图像对齐。 iii)使用上下文联合估计房间布局和3D对象[18,19,22-24,33,45,46]。尤其是Izadinia等人。 [33]展示了在没有上下文关系和物理约束的情况下推断布局和对象的有希望的结果。相比之下,我们的方法联合模拟了层次结构的场景结构,隐藏的人类背景和物理约束,为整体场景理解提供了语义表示。此外,提出的方法提出了一种使用MCMC的联合推理算法,理论上可以实现全局最优。

场景语法:场景语法模型已用于从RGB图像推断出3D结构和功能[3,17,18,47]。我们的HSG在两个方面与[17,18]不同:i)我们的模型用CAD模型而不是几何图元表示3D对象,能够建模细节上下文关系(例如,支持关系),这提供了更好的解析和重建实现。 ii)我们在HSG中推断出隐藏的人类和活动组,这有助于解释和解析。与[3,47]相比,我们从单个RGB图像模拟和解析对象和布局的3D结构,而不是使用RGB-D图像标记的点云。

开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建本文作出五大贡献:1.我们整合几何和物理,用CAD模型解释和重建室内场景。我们共同优化3D房间布局和对象配置,大大提高了SUN RGB-D数据集[45]的场景解析和重建性能。

2.我们将隐藏的人类语境(即功能)纳入我们的语法,通过分组和抽样,可以想象每个活动组中潜在的人类姿势。通过这种方式,我们可以优化场景的可见和不可见[48]分量的联合分布。

3.我们提出了一个完整的计算框架,将生成模型(即随机语法),判别模型(即深度,法线和分割图的直接估计)和场景中的图形引擎(即渲染图像)相结合。解析和重建。

4.据我们所知,我们的第一项工作是使用推断的深度,曲面法线和物体分割图来帮助解析和重建3D场景(房间布局和多个物体)。请注意,[49]对单个对象使用类似的中间表示。

5,通过学习对象之间的支持关系,所提出的方法消除了以前工作中广泛采用的假设,即所有对象必须站在地面上。模型的这种灵活性可以更好地解析和重建具有复杂对象关系的真实场景。

整体场景语法,我们通过整体场景语法(HSG)来表示室内场景的层次结构。 HSG由功能空间F中的潜在分层结构和几何空间G中的终端对象实体组成。直觉是,对于人造环境,几何空间中的对象布置应该是来自功能的“投影”。 空间(即人类活动)。 作为概率上下文无关语法(PCFG)的功能空间捕获功能组的层次结构,并且几何空间通过在终端节点上定义MRF来捕获对象之间的空间上下文。 这两个空间一起形成随机上下文敏感语法(SCSG)。 HSG从根场景节点开始,以一组终端节点结束。 室内场景由解析图pg表示,如图2所示。

3D物体检测:我们使用[45]中定义的指标评估我们的3D物体检测结果。我们使用预测和地面真实3D边界框之间的3D IoU计算平均精度(mAP)。在没有深度的情况下,我们将阈值IoU从0.25(以深度作为输入的评估设置)调整为0.15并在表2中报告我们的结果。由于空间有限,此处报告了30个对象类别中的15个;补充材料中报告了全部表格。结果表明,我们的方法不仅大大超过了检测分数,而且还可以评估整个对象类别。请注意,尽管IM2CAD还评估检测,但它们使用与指定距离阈值相关的度量。在这里,我们还使用此特殊度量而非IoU阈值与子集上的IM2CAD进行比较。我们能够获得80.2%的mAP,高于IM2CAD中报告的mAP为74.6%。

整体场景理解:我们估计详细的3D场景,包括对象和房间布局。使用[45]中提出的度量,我们评估几何精度Pg,几何回忆Rg和语义回忆Rr,IoU阈值设置为0.15。我们还评估了地面实况和估计之间的自由空间(房间多边形内部但在任何物体边界框之外的3D体素)的IoU。表1显示所提出的方法显示出显着的改进。此外,我们将初始化结果的几何精度提高了12.2%,几何召回率提高了7.5%,语义召回率提高了6.1%,自由空间估计提高了4.1%。总场景理解的改进表明联合推理可以在很大程度上改善每项任务的性能。使用与3D布局估计相同的设置,我们与IM2CAD [33]进行比较,并将自由空间IoU提高3.1%。

烧蚀分析:拟议的HSG包含几个关键组件,包括支持关系,物理约束和潜在的人类对话关系。为了分析每个组成部分将如何影响最终结果,以及联合推理过程将使每项任务受益多少,我们通过打开和关闭某些组件或在不同设置下对整体场景理解进行消融分析。在联合推理期间跳过某些步骤。实验在办公室子集上进行测试,我们将潜在的人类背景纳入其中。表3总结了结果。在我们所包含的所有能量项中,物理约束对性能的影响最大,这证明了推理过程中物理常数的重要性。它还反映了联合推理的效率,因为在没有迭代联合推理的情况下,性能会大幅下降。

开源ECCV18人工智能算法单个RGB图像的整体三维场景解析与重建结论,我们提出了一个综合分析框架,使用与潜在人类背景,几何和物理相结合的随机语法模型,从单个RGB图像中恢复室内场景的3D结构。我们从三个方面证明了算法的有效性:i)联合推理算法显着改善了各种单独任务的结果; ii)优于其他方法; iii)烧蚀分析表明每个模块在整个框架中起着重要作用。总的来说,我们相信这将是迈向整体3D场景理解的统一框架的一步。

开源关键词:holistic_scene_parsing

原文标题:Holistic 3D Scene Parsing and Reconstruction from a Single RGB Image

返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
投诉
免费获取
今日搜狐热点
今日推荐