CCF-CV走进高校系列报告会-山东大学智能媒体研究中心

中国计算机学会计算机视觉专委会

走进高校系列报告会

CCF－CV Series Lectures

（第86期）

山东大学-山东省人工智能研究院联合承办

微软亚洲研究院协办

主题：智能媒体计算

时间：2020年5月10日（星期日）8:45-12:20

直播链接：https://live.bilibili.com/730

本文转载自微信公众号：CCF计算机视觉专委会

程序

8:30

直播间开放

8:45

报告会开始

8:45-8:50

开场致辞：杨美红 山东省科协副主席

8:50-9:25

特邀讲者：季向阳 博士，清华大学教授

演讲题目：基于视觉的物体位姿估计

9:25-10:00

特邀讲者：赖剑煌 博士，中山大学教授

演讲题目：行人重识别方法若干新进展

10:00-10:35

特邀讲者：山世光 博士，中国科学院计算所研究员

演讲题目：深度理解人的视觉读心技术及进展

10:35-11:10

特邀讲者：石光明 博士，西安电子科技大学教授

演讲题目：语义通信变革现代通信技术

11:10-11:45

特邀讲者：王井东 博士，微软亚洲研究院高级研究主管

演讲题目：Learning high-resolution and object-contextual representations for semantic segmentation

11:45-12:20

特邀讲者：薛建儒 博士，西安交通大学教授

演讲题目：无人驾驶与混合增强智能

执行主席：

甘甜 博士，山东大学计算机科学与技术学院副教授

吴建龙 博士，山东大学计算机科学与技术学院助理教授

讲者 / 报告信息

特邀讲者：季向阳

清华大学自动化系教授，博士生导师，主要研究方向为信号获取与处理、机器学习与无人系统，北京信息科学与技术国家研究中心智能科学部主任、自动化系脑与认知科学研究所所长。获国家杰出青年科学基金，中国青年科技奖等学术荣誉；任中国电子学会青年工作委员会主任委员、中国人工智能学会深度学习专委会主任等职务。近年来发表IEEE Trans. TIC、TIP、IJCV、CVPR、ECCV、ICCV等SCI/EI论文100余篇；授权国家发明专利40余项，国际发明专利10项；课题组曾在MSCOCO视觉实例分割、ECCV视觉质量增强、ICCV 6D位姿估计等多个国际比赛中获得冠军；获多项自动驾驶汽车挑战赛等冠军。获2019年国家科技进步二等奖1项（第一完成人），2012年国家技术发明一等奖1项（第二完成人）。

报告摘要：物体6D位姿估计是现实世界许多复杂视觉任务中的关键基础，在自动驾驶、虚拟/增强现实、场景交互等领域有着广泛的应用。报告首先回顾了近几年6D位姿估计发展现状以及面临的挑战，随后介绍我们的基于深度卷积神经网络的位姿迭代匹配框架DeepIM，探讨如何设计位姿估计中旋转、平移的解耦表示方法以及相应的点匹配损失函数，并通过结果验证分析方法具有极大性能提升的同时对混乱和遮挡也具有稳健性。进一步介绍如何通过设计网络结构来解耦预测平移和旋转的CDPN框架，并结合尺度不变的平移预测从RGB图像回归目标物体的密集3D坐标，实现了当前最优的6D位姿估计性能。最后我们介绍为了克服深度网络训练中需要精细化的6D位姿标注问题，探讨如何利用强化学习实现无真实位姿标注情况下依然能够实现高精度物体6D位姿估计。

特邀讲者：赖剑煌

中山大学数据科学与计算机学院教授、博士生导师。广东省信息安全重点实验室主任，视频图像智能分析与应用公安部重点实验室副主任、学术委员会常务副主任。中国图象图形学会副理事长、会士，广东省图像图形学会理事长（第四、五届）。中国计算机学会杰出会员、理事，中国计算机学会计算机视觉专业委员会副主任（第一、二届），中国计算机学会人工智能与模式识别专业委员会委员、中国人工智能学会机器学习专业委员会委员。广东省人工智能与机器人学会副理事长、广东省安防协会人工智能专委会主任。1986、1989年分别在中山大学获学士、硕士学位，并留校任教。1999年在中山大学获博士学位。主要研究领域为生物特征识别、数字图像处理、模式识别和机器学习。已主持承担国家自然科学基金与广东联合重点项目、科技部科技支撑课题、国家自然科学基金等。获得广东省科学技术奖励自然科学类一等奖（2018排名1），广东省科学技术奖励科技进步类二等奖（2016，排名3）、广州市科学技术奖励一等奖（2014）。已发表了约200篇学术论文，主要发表在ICCV、 CVPR、 ICDM等专业重要学术会议以及IEEE TPAMI、IEEE TIP、IEEE TNN、IEEE T-SMC(Part B)、Pattern Recognition等国际权威刊物上。拥有多项国家发明专利。

报告摘要：2018年以来，行人重识别的研究重点主要集中在如何与现实场景结合更好地应用方面，其中不仅包括研究行人重识别的跨模态、低分辨率、遮挡等应用难题，也包括研究跨场景非监督学习、迁移学习、图像生成方法等问题。报告主要介绍本实验室行人重识别研究在跨场景非监督学习、迁移学习、时空信息关联、可见光-红外多模态等方面的若干新进展，对相关问题的进一步研究将有借鉴意义。

特邀讲者：山世光

博士，中科院计算所研究员、博导。他的专业领域为计算机视觉、模式识别和机器学习，在人脸识别等图像识别技术上有超过20年的研发经验，带领团队获得过十余次国内外学术竞赛冠亚军，所研发的人脸识别技术成功应用于公安部出入境管理局、公安部治安管理局、十几省公安厅、部分华为手机等。已在国内外刊物和学术会议上发表论文300余篇，其中计算机学会认定的A类刊物和会议论文80余篇，论文被谷歌学术引用18000余次。曾应邀担任过ICCV, CVPR, AAAI, ACCV, ICPR FG, BTAS, ICASSP等10+次领域主流国际会议的领域主席，现/曾任IEEE TIP, CVIU, PRL, Neurocomputing, FCS等国际学术刊物的编委(AE)。研究成果获2005年度国家科技进步二等奖，2015年度国家自然科学二等奖。他是国家基金委优青，中国计算机学会青年科学家奖获得者，腾讯首度科学探索奖获得者。

报告摘要：所谓的“视觉读心”是指通过对普通摄像设备采集的人物视频的分析，获得视频中人物的生理指标、心理状态乃至精神状况的技术。这些技术在人机交互、交通、教育、医疗健康等诸多领域均有广泛的应用前景。本报告将在概述“读心”技术现状的基础上，介绍本人课题组在表情识别、AU检测、心率估计等任务上的研究进展，特别是在情感标注数据匮乏情况下如何进行特征学习等方面的研究结果。

特邀讲者：石光明

国家级人才，二级教授，西安电子科技大学副校长，人工智能学院首席教授，享受政府津贴。研究方向为语义通信、编码与通讯、语义计算、类脑计算，成像与理解，脑机接口。担任国家自然基金人工智能领域会评专家，是生物与信息交叉专业组、计算机领域专业组、教育部科技委等专家。担任中国人工智能学会混合智能专委会、脑科学与人工智能专委会委员，全国信息技术标准化技术委员会人工智能分委员会委员，IEEE VSPC （视觉信息处理与通信）委员会委员，IEEE高级会员，IET Fellow，IEEE CASS Xian Chapter Chair，中国电子学会会士，IET 西安分会常务副主席和陕西省电子学会副理事长兼秘书长。已主持多项国家重大重点科研任务。承办2019年中国模式识别与计算机视觉大会（PRCV2019）、90届MPEG和50届JPEG国际标准会议大会。牵头获2017年国家自然科学二等奖。在国际有影响力刊物上发表多篇涉及图像压缩编码与通信、计算成像、类脑计算等方面高被引用文章。获得多项发明专利，成果应用于国家研究机构。牵头获2014年国家级教学成果二等奖。

报告摘要：语义通信,即面向信号语义的通信(communication oriented on semantic of signal)，是5G+AI时代智能体协作的必然产物，是满足人机泛在互联需求的智能通信模式。作为新型通信技术的重要发展方向，语义通信的主要技术特征包括：信息传递与信息理解一体化、实时语义保真的通信质量、支撑强智能体协同通信等。语义通信作为智能化时代的新型通信技术，在智能+设施、多智能体协作、人机自然交互、人机融合、城市协同安防等方面具有广阔前景。

特邀讲者: 王井东

Jingdong Wang is a Senior Principal Research Manager with the Visual Computing Group, Microsoft Research, Beijing, China. He received the B.Eng. and M.Eng. degrees from the Department of Automation, Tsinghua University, Beijing, China, in 2001 and 2004, respectively, and the PhD degree from the Department of Computer Science and Engineering, the Hong Kong University of Science and Technology, Hong Kong, in 2007. His areas of interest include deep learning, large-scale indexing, human understanding, and person re-identification. He is an Associate Editor of IEEE TPAMI, IEEE TMM and IEEE TCSVT, and is an area chair (or SPC) of some prestigious conferences, such as CVPR, ICCV, ECCV, ACM MM, IJCAI, and AAAI. He is a Fellow of IAPR and an ACM Distinguished Member.

报告摘要：Semantic segmentation is a fundamental and challenging visual recognition problem. It aims to assign a category to each pixel in an image. Various solutions have been developed mainly from two aspects. One is to improve the spatial granularity, e.g. applying dilated convolutions to ResNet or upsampling the low-resolution representation output by ResNet. The other is to explore the context, e.g. using pyramid pooling module (PPM) in PSPNet or atrous spatial pyramid pooling (ASPP) in DeepLab for combining multi-scale information. I will introduce our two research works handling the two issues. The first one is the high-resolution network (HRNet) for learning spatially fine-grained and semantically strong representations. The HRNet is designed from scratch other than from a classification network (e.g., ResNet) and maintains high-resolution presentations through the forward process with repeated multi-scale fusions. The second one is object-contextual representation (OCR). It starts from the intuition that the label of a pixel is the category of the object/stuff the pixel belongs to. The OCR approach aims to aggregate the representations of the pixels lying in the same object class by differentiating them from the pixels lying in different object classes. Experiments show that the HRNet and OCR approaches outperform the corresponding competitors. Together with a boundary refinement scheme, HRNet + OCR wins the first place in semantic segmentation on cityscapes. The codes are available at

https://github.com/HRNet/.

特邀讲者：薛建儒

工学博士，教授。2003年在西安交通大学获工学博士学位，现在西安交通大学人工智能与机器人研究所从事教学科研工作。2002-2003年在日本富士施乐公司研究本部工作，2008-2009年在美国加州大学洛杉矶分校访问研究。主要研究领域为计算机视觉与模式识别、无人车环境理解及自主运动。目前是中国自动化学会会士、理事及混合智能专业委员会主任，中国图象图形学会理事及视觉大数据专业委员会副主任，国家级人才。获国家自然科学二等奖与技术发明二等奖、IEEE ITS学会杰出研究团队奖、ACCV2012最佳应用论文奖等奖项。合著有英文学术专著《Statistical Learning and Pattern Analysis Approaches to Image and Video Processing》(Springer出版，2009年)

报告摘要：无人驾驶无疑是目前人工智能领域最具颠覆性的智能系统，将深刻变革我们的交通运输与出行模式。然而，实现完全的自主驾驶依然面临着诸多不确定性、脆弱性和开放性问题，因此需要将人的作用或者人的认知模型引入到智能驾驶系统中，形成人机协同的混合增强智能驾驶。本报告旨在探讨人机协同的混合增强智能驾驶和受脑认知和神经科学启发的自主驾驶两种混合增强驾驶形态，主要包括增强智能驾驶中的示教、模仿与交互学习及受脑和神经科学启发的自主智能等核心问题及我们课题组所取得部分研究进展。

执行主席：

执行主席：甘甜

甘甜博士现任山东大学计算机科学与技术学院副教授、硕士生导师、泰山学堂教授小组成员。其于2010年和2015年分别从华东师范大学和新加坡国立大学获得学士和博士学位，后任新加坡科技研究局资讯通信研究院（Institute for Infocomm Research, A*STAR）科学研究员。主持国家自然科学青年基金项目、科技部重点研发项目子课题。已在多个相关领域的国际顶级学术期刊及会议ACMMM、AAAI、CIKM、TCB、ToMM等上发表多篇论文，并且担任多个国际顶级会议ACMMM、ICIP等程序委员，担任ICIMCS 2019、ACM MM Asia 2020出版主席。目前研究方向主要集中在多媒体计算与社交媒体分析。

执行主席：吴建龙

吴建龙博士现任山东大学计算机科学与技术学院助理教授。于2014年和2019年分别从华中科技大学和北京大学获得学士和博士学位。主要研究兴趣包括弱监督学习、计算机视觉和机器学习。已经在IEEE TIP, ICML, ICCV和AAAI等国际顶级学术期刊和会议上发表十余篇论文。此外，吴建龙博士还担任IEEE TPAMI, IJCV, ICML等顶级学术期刊和会议的审稿人。