学术活动

学术活动

    关于举办“潇湘论道——江南·体育(中国区)官方网站人工智能学术前沿会议”的通知

    发布时间:2024-10-12 作者: 责任编辑:科技处 浏览次数: 来源:

    关于举办“潇湘论道——江南·体育(中国区)官方网站人工智能学术前沿会议”的通知

    会议名称:潇湘论道——江南·体育(中国区)官方网站人工智能学术前沿会议

    会议时间:2024 10 14 日上午 08:30-12:00

    会议地点:江南·体育(中国区)官方网站致远楼1609学术报告厅

    主办单位:江南·体育(中国区)官方网站计算机科学与工程学院

    主讲人简介:

    刘安安,天津大学教授,国家杰青,天津大学图像所所长。从事视觉感知、生成与决策研究。主持国家基金联合重点;以第一完成人获天津市科技进步特等奖;以第一/通讯作者发表高水平论文百余篇;入选IET Fellow,担任4IEEE/ACM期刊编委。

    报告题目:视觉大模型内生风险解析和治理

    报告摘要:视觉生成大模型(如Stable DiffusionMidjourney系列模型)存在内生风险,用户可以利用无显性风险的提示攻击模型,从而生成风险图像。针对此问题,典型的解决方法是使用一系列风险因素过滤器,避免风险图像的生成或传播。然而,由于诱发生成模型产生风险的机理未知,无法从“治本”的角度阻断风险图像的生成。本报告将介绍团队针对视觉大模型内生风险机理研究,并提出相应风险防御策略。报告首先介绍诱发视觉大模型内生风险的通用攻击框架。基于攻击结果,我们分别从文本提示和特征空间挖掘出诱发模型生成风险内容的模式,最后基于风险诱发模式提出了相应的防御框架来增强模型生成内容的安全性。


    杨易,国家特聘专家、浙江省“鲲鹏行动”专家、浙江大学求是讲席教授(二级教授)、计算机学院副院长、微软-教育部视觉感知重点实验室主任。科技部 2030“新 一代人工智能”重大项目项目负责人(首席科学家)、国家自然科学基金联合重点项目负责人、国家自然科学基金重大项目课题负责人、科技部2030“新一代人工智能”重大项目课题负责人。 Google Scholar 引用数7万余次,H-index 131,近6年连续入选Clarivate Analytics全球高被引学者。获教育部全国优秀博士论文(2010)、澳大利亚基金委青年研究职业奖(2013)、澳大利亚计算机学会颠覆创新金奖(2016)、谷歌学者研究奖(2016)、澳大利亚科研终身成就奖(2019)、 亚马逊机器学习科研奖(2020)CCF-A类会议IJCAI最具影响力论文(2021)CCF-A类会议ACM MM唯一最佳论文奖(2023)等多项AI领域国际奖项,以及20余次国际科研竞赛世界冠军。担任多个知名国际期刊与会议的重要职务。

    报告题目:混合模型驱动的数字人生成技术

    报告摘要:本报告首先讨论数字人应用中面临的挑战和问题,展开分析多重知识表达的优势与特点。随后,本报告将面向数字人重建与驱动、跨媒体数字人生成等应用,讨论数字人建模的研究进展。在数字人重建方面,本报告将讨论融合几何等先验信息的方法在数字人驱动中的应用。本报告将结合实际案例讨论专用知识嵌入方法、结构化表达机制等。最后,本报告将展望数据知识双轮驱动的研究前景。


    李玺,浙江大学求是特聘教授,国家杰青,IAPR/IET FellowIEEE Senior MemberCCF杰出会员,全球前2%顶尖科学家,Elsevier 2023“中国高被引学者”,国家青年特聘专家。从事人工智能领域研究,发表高水平学术论文200余篇,获得四项最佳学术论文奖,以第一完成人获得省部级科技奖励一等奖2项、华为火花价值奖以及华为优秀技术合作成果奖。成果应用于华为、阿里、海康等企业。指导博士生秦泽群获得中国图象图形学会优博论文奖。

    报告题目:多模态视觉表征学习进展与思考

    报告摘要:互联网和物联网时代催生了海量多模态大数据,从这些海量数据中有效提取知识迫切需要各种人工智能的技术和手段。因此,如何进行人工智能驱动的多模态计算已经成为当今知识经济时代亟待解决的核心技术问题。本报告主要围绕数据驱动的人工智能学习方法,进行大规模图像/视频数据的视觉特征学习,从目标视觉感知特性、视觉特征表达、深度学习器构建机制、高层语义理解等多维度视角进行了深入剖析,并引入了大规模多模态特征学习所涉及的主要研究问题和技术方法。然后系统地回顾了多模态特征表达和学习领域的不同发展阶段,介绍了近年来我们利用特征学习进行视觉语义分析和理解所做的一系列代表性的研究工作及其实际应用。报告的最后将和大家一起探讨一下涉及多模态特征学习所面临的一些开放性问题和难题。


    常晓军,中国科学技术大学的讲席教授、国家级高层次人才,曾获得澳大利亚研究委员会的早期职业研究奖。他的主要研究方向包括多模态学习、计算机视觉、绿色人工智能及其在社会公益中的应用。他主持了包括澳大利亚研究委员会在内的十多个国家级项目。其研究成果已在国际顶级期刊(如T-PAMITIP)和CCF A类会议上发表超过150篇论文,谷歌学术引用次数超过18,000次,其中21篇论文被选为ESI高被引/热点论文。他在20192023年连续被评为科睿唯安高被引学者。常教授还担任IEEE TCSVTIEEE TNNLSACM TOMM等国际顶级期刊的副主编,以及CCF A类会议的领域主席。

    报告题目:高效视频理解

    报告摘要:在本次报告中,我们将探讨视频理解领域的前沿进展,重点介绍三项关键工作。首先,我们介绍时空金字塔变压器(Spatio-Temporal Pyramid TransformerSTPT)在动作检测中的应用,该方法创新性地结合了局部窗口和全局注意力机制,捕捉时空依赖关系,在显著降低计算成本的同时实现了优异的性能。接下来,我们介绍用于视频语义分割的遮罩传播框架(Mask Propagation for Video Semantic SegmentationMPVSS),该框架通过从稀疏关键帧传播准确的遮罩,提高了效率,在VSPWCityscapes等基准测试上达到了最先进的精度和效率。最后,我们讨论了用于长视频理解的长视频语言模型(LongVLM),该模型借助大语言模型(LLM)将长视频分解为短片段,并将局部特征与全局语义相结合,生成全面而精确的响应。这些工作展示了高效且强大的模型在视频理解领域的潜力,为精度、效率和全面分析带来了显著提升。


    徐凯,国防科技大学教授,国家杰出青年基金获得者。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂三维数据的结构化感知、建模与交互理论方法系统。发表TOG/TPAMI/TVCGA类论文100余篇。担任图形领域顶级国际期刊ACM Transactions on GraphicsIEEE Transactions on Visualization and Computer Graphics的编委,以及多个领域重要会议的程序主席。任中国图象图形学会三维视觉专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。获湖南省自然科学一等奖2项(排名13)、中国计算机学会自然科学一等奖2项(排名13)、军队科技进步二等奖、军队教学成果二等奖等。

    报告题目:多模态具身感知与交互

    报告摘要:具身感知与交互是具身智能系统的重要组成部分。如何基于多模态感知输入,建构结构化、语义化,且大模型友好的三维环境表达,同时发挥端侧模型的感知理解和柔性交互能力,以及云侧大模型的常识推理和任务规划能力,以实现面向高层次任务的主动、持续、长程感知与交互,是具身智能系统的核心能力要求。围绕上述问题,本次报告汇报我们的相关进展,包括跨智能体动态抓取技能学习,机器人主动三维场景图构建,未知场景物体目标导航,以及基于多模态大模型的室内物品整理。