南京理工大学张姗姗教授访谈
2020年11月11日,《CCF-CV专委简报》在线采访了南京理工大学计算机科学与工程学院博士生导师张姗姗教授。下面是采访实录。
您是1987年出生的,非常的年轻,现在就已经是博导、教授,有丰富的科研经历且取得了很多科研成果,能否跟大家分享一下您的快速成长历程,以及您的成长感悟?
我本科、硕士曾就读于同济大学电信学院,硕士期间曾在导师的推荐下前往日本国立情报学研究所学习访问。硕士期间的学习经历,特别是在日本的访学经历,激发了我继续从事科学研究,以及走出国门多看看的强烈愿望,于是硕士毕业后我便前往德国知名学府波恩大学计算机系攻读博士学位。博士毕业后有幸进入德国顶尖的科研机构马普所从事博士后研究。回国后,我曾在学校的支持下前往美国加州大学伯克利分校访问。在多个国家的学习和工作经历使我受益良多,得到了多位德高望重的老师的指导,认识了很多优秀的朋友,我感到自己的各方面的能力都得到很大提高。
我出生于江西的一个小县城,在我上大学之前都没有高速公路,从我们县城沿着盘山公路开车需要五六个小时才能到达省城南昌,2004年考上大学我才第一次走出大山,来到繁华的大上海。来自偏远山区的我特别珍惜这来之不易的受教育的机会,深知这是自己唯一的出路。在后续的学习和工作中,我一直十分努力,不敢懈怠。同时,我觉得自己特别幸运,一路走来得到多位师长和领导的关心、帮助和支持,包括我的硕士导师刘富强教授、博士导师Armin B. Cremers教授、博士后合作导师Bernt Schiele教授以及我目前所在团队的负责人杨健教授。他们为我提供了良好的科研环境,并且不断地鼓励我,帮助我,支持我,使得我能够沉下心来专注地做好自己的科研课题。我非常感谢他们!
在我的科研道路上,我最深切的体会是,作为年轻人,首先要立足于一个小的领域,深耕其中,不甘寂寞,踏实前行。正如,沈向洋老师最近在他的报告中分享的“Before you go broad, go deep.” 从博士以来,我一直从事行人检测方面的研究,至今已有十年之久。其实,在我博士后工作初期,我曾经考虑要换一个课题,可是当时我的导师Bernt Schiele教授鼓励我说,任何一个课题,你起码要研究十年以上才可能成为这方面的专家。在他的鼓励下,我继续深入这方面的研究,并且通过实验分析发现现有的算法在很多困难场景下,检测性能还远远不能满足实际应用的需求。在接下来的几年里,我致力于解决困难场景下的行人检测问题,如遮挡、夜间环境、跨域检测等,取得了一系列新的成果。功夫不负有心人,我在微软学术统计的全球学者近五年排位中,位列行人检测领域第一位。
您目前的这些研究工作中,请问哪一项是您认为最自豪的?能否具体介绍一下?
行人检测是一个传统的研究课题,自深度学习兴起之前就已经被广泛研究。深度学习兴起之后,行人检测依然独立于通用目标检测,受到持续关注,比如今年CVPR投稿系统中将其单列为一个子领域。一方面,行人检测在自动驾驶、视频监控、智能机器人等诸多领域有着极其广泛的应用背景;另一方面,行人作为一种典型的目标类别,有很多区别于其他物体的显著特征,使得我们在设计行人检测算法的时候可以利用很多先验知识来提高精度。
目前我们研发的行人检测算法已经被丰田汽车公司用于无人驾驶实验车上,我们看到基于视觉的行人检测方法在一般理想环境下能够取得不错的检测效果。然而,在一些困难场景下,如遮挡、恶劣天气、夜间等情况下的检测精度还有待提高。
您带领团队参加了一些挑战赛并获得了奖项,如:2018年中国智能车未来挑战赛“前方车辆位置检测”第一名和“跨越险阻2018”陆上无人系统挑战赛环境感知组第二名,能跟大家分享一下参加这些挑战赛的经验、经历和心得么?
近年来,我们在抗遮挡方面做了一系列工作。2017年我们提出了一个新的行人检测数据集CityPersons,该数据集具有较强的多样性和丰富的遮挡实例,我们利用数据驱动的方法提高了现有模型应对遮挡场景的能力。该数据集目前已成为行人检测领域的标准、权威数据集,在领域内被广泛采用。最近两年,我们研究了如何自适应地对人体遮挡模式进行建模,从而提高被遮挡人体特征的辨识度,如卷积通道间注意力机制,图卷积网络信息传递等。但是我们感到仅利用单帧图像处理遮挡问题具有一定的局限性,因为被遮挡部分信息缺失难以得到补偿。未来我们将利用多视角图像对室外人体进行三维重建,并利用全场景理解以及视频帧协同决策等技术借助上下文信息来进一步解决遮挡问题。
除了行人检测,您目前的研究聚焦点还有哪些?在研究方面,您未来的规划是怎样的?
回国工作后,我开始逐渐扩展自己的研究方向。由于我多年来从事行人检测方面的研究,我对图像视频中的人体分析技术十分感兴趣。目前我的研究课题较广泛地涉及到行人检测、行人重识别、行人搜寻、人体语义解析