视觉是人类了解外部环境结构及其变化的重要感知通道。作为人工智能的核心领域之一,计算机视觉试图充分利用认知科学原理与计算机技术来实现人类的视觉功能,使智能机器能够自主理解环境及其变化,并与环境进行高效的互动。
主要研究内容包括:图像识别与检测、图像与视频的语义分割、生物特征识别、三维场景重建、动态视觉与主动视觉、人体行为分析与意图理解等。主要目的是赋予智能感知系统可靠的环境分析与理解能力,使其能够在复杂的现实场景中具有高度的环境与任务自适应性。
承担数十项国家级、省部级和横向合作项目,包括国家自然科学基金、863、973、教育部创新团队、国家重点研发计划等项目。研究成果发表计算机视觉、机器学习领域知名会议和期刊论文数百篇,包括TPAMI、IJCV、TVCG、PR、CVPR、ICCV、ECCV、NeurIPS、ICML、AAAI、ICRA等。研究成果获国家技术发明二等奖、教育部技术发明一等奖、公安部科技进步二等奖、广州市科技进步三等奖、中国科学院科技进步二等奖等奖项,应用到公安刑侦、医疗与文化遗产的应用中,其中数字龙门石窟项目被中央电视台等多种主流媒体宣传;小波图像压缩系统应用于航天领域的高速摄像系统和电影院线的数字电影播放系统;图像理解方面的多视角、多标签学习等成果被评为国家973项目重点成果。该方向成员还多次获得国内外学术会议的荣誉和奖励,包括Euromed 2010、ACPR 2017、CCCV 2017、ICPR2018和FG2020的最佳论文/海报奖、ISMAR 2019竞赛V-SLAM第一名等。