场景图生成概述

场景图概念最先提出是在2015年stanford University的Justin Johnson等人提出的,目的是实现图像的检索任务(images retrieval using scene graph),通过将传统的文本转化为场景图之后作为输入传入检索模型,在模型中使用输入的文本语义图和场景图进行匹配,从而实现对于图像的更为精确的检索。

在Johnson的论文中定义的scene graph如下:

A scene graph is a data structure that describes the contents of a scene. A scene graph encodes object instances, attributes of objects, and relationships between objects.

简而言之,场景图就是一种描述图片中对象实体和属性以及实体间关系的一种数据结构。具体的结构定义如下所示:

可以看到由于场景图将图片的对象及其属性信息,乃至对象之间的关系全都纳入到结构化的图数据结构中,使得计算机对于图像的语义信息表达更加准确和完善,因此场景图的出现极大的刺激了图像处理相关技术的发展。

之后,基于场景图的工作越来越多,由于最初的数据集中的场景图由人工进行标注,同时一些新的下游任务诸如图片生成,自动标注任务等等需要实现图片场景图的自动生成,因而越来越多的工作开始集中于场景图的自动生成,该领域也越来越火热。近几年在计算机视觉领域的顶会上,有关场景图的工作越来越多,同时随着场景图生成质量的提高,相关下游任务的工作也逐渐变多起来。

应用方向

领域发展情况

常用方法总结

常用指标总结

一点点个人思考

参考文献列表

[1] Justin Johnson. Image Retrieval using Scene Graph. CVPR 2015