11月30日,“图像图形领域十大前沿科技问题”在《中国图象图形学报》创新发展论坛中发布。《中国图象图形学报》主编吴一戎院士、华中科技大学副校长冯丹,领域主编、北京航空航天大学教授李波,学报领域主编、中国科学院空天信息创新研究院(空天院)副院长胡玉新共同启动了十大问题发布仪式。
人类感知信息的80%来自视觉,计算机图像图形是数字世界的核心组成部分,在智能制造、精准农业、智慧教育、医疗健康和国家安全等领域发挥着十分重要的作用。
为进一步加强我国图像图形领域科技前瞻研判,在空天院与《科学》出版社联合倡议下,《中国图象图形学报》开展了“图像图形领域十大前沿科技问题”的征集、评审工作。经过编委会和专家的多轮评审和凝炼,最终遴选出10个科技问题,聚焦“世界模型”“类人感知”“可信推理”等主题,涉及大模型、具身智能、内容生成、自动驾驶、空间探测、医疗诊断等应用场景,具体包括:
一是,智能模型的客观物理规律认知。以人工智能模型为代表的各类智能模型主要依赖海量数据,学习数据中的表观统计规律,而缺乏对重力、刚体运动、能量守恒等客观物理规律及因果关系的内在认知。这使得模型常常生成违背物理常识的推理结果,难以满足高安全性与可靠性的应用需求。
让模型具备物理认知,是实现与真实世界安全、可信交互的关键一步。为此,学界正积极探索让模型具备物理认知的科学途径:其一,将物理规律的数学表达嵌入模型,引入力学、光学等约束,使模型推理结果符合真实物理规律;其二,利用大量未标注数据进行自监督学习,从观测数据中自动提取物理规律的隐式表达;其三,构建具备客观物理推理能力的模型评估基准,以系统评估模型的物理一致性、因果理解与泛化能力。
未来,需进一步突破模型对物理约束的高效表达,推进数据驱动与物理先验的协同建模,建立跨场景的物理一致性评测体系。推动智能模型从“表象学习”迈向“物理认知”,为新一代自主智能体、智能驾驶、虚实融合仿真和数字孪生等系统提供可信赖的智能基础,对国家安全、先进制造及科学研究等领域具有重要战略意义。
二是,“类人”主动视觉感知与理解问题。该问题旨在探索和构建模拟人类视觉认知核心特性的新一代机器视觉系统,突破当前被动视觉感知根本性瓶颈——当前视觉感知方法在特定任务上表现卓越,但本质是“大数据、小任务”的被动模式识别,严重依赖人工标注数据,缺乏复杂动态场景下的泛化能力、推理能力及对世界的深刻理解。人类视觉认知的核心优势在于主动闭环调控机制:通过动态聚焦关键信息、过滤冗余干扰,并依托“感知-反馈-适配”的闭环逻辑,天然融合常识进行推理,进而快速完成语义理解、因果预判与在线适应,兼具主动、高效、鲁棒的本质特性。
因此,该问题的核心任务在于:解析并模拟人类视觉感知中的 “主动调控”核心机理,构建类人“感知—认知”转化通路,使机器具备类人化视觉感知和理解能力——依据任务与上下文主动捕获关键视觉信息,融合多模态信息与常识实现深层语义理解、因果预判、高效在线适应及认知级推理。
三是,三维空间物理真实的世界模型构建与交互仿真。世界模型旨在构建一个能够理解、预测与交互的数字世界,是三维视觉、计算机图形学与人工智能交叉融合的核心方向。近年来,视频生成与基于高斯泼溅的世界模型等范式迅速发展,在物理感知、多视角一致性与动态交互生成方面取得显著进展。例如,隐空间建模方法(如DINO-world)通过特征空间建模提升效率;视频生成模型(如Sora)实现高真实感内容生成,但在物理合理性与长时序空间一致性方面仍存在局限;基于高斯泼溅的世界模型(如GaussianWorld)则凭借高效渲染与显式三维表示,推动动态场景建模能力不断提升。
该问题的前沿方向与突破点:其一,物理可靠性建模:当前方法多依赖隐式或显式先验注入,尚难以实现精细化物理参数控制与真实物理规律的动态建模。其二,空间一致性与记忆机制:多视角生成仍依赖大量标注数据或显式重建,长时序场景的连贯性与记忆建模机制尚不成熟。其三,交互与扩展性:现有系统在实时交互、无限场景生成与真实世界复刻方面能力有限,需发展融合感知、记忆与决策的通用框架。
该问题的潜在效益:其突破将推动自动驾驶、具身智能、虚拟现实、影视游戏等领域的跨越式发展,支撑数字孪生、工业仿真等国家战略需求,具有重大经济社会与安全价值。
四是,安全鲁棒的具身大模型。具身大模型作为下一代人工智能的重要方向,融合了感知、推理、决策与行动能力的综合系统,通过与环境交互实现智能行为。它不仅关注数字世界的信息处理,更需要在物理世界中部署并执行任务,广泛应用于自动驾驶、机器人等关键领域。与大语言模型不同,具身大模型直接与物理世界交互,其安全失效可能导致人身伤害、财产损失甚至国家安全威胁,因此其安全复杂性和重要性远超传统大模型。
当前具身大模型的安全研究还处于起步阶段,前沿研究方向包括物理规律下的人类价值观对齐、语言越狱攻击、视觉对抗攻击、跨模态后门攻击等。技术突破点包括基于强化学习的安全对齐技术、物理感知的对抗训练方法、统一的具身安全评测基准,以及解决多模态联合攻击的新型防御技术。
安全鲁棒的具身大模型将推动自动驾驶、工业机器人、医疗健康等领域的规模化应用,创造千亿级安全产业价值,同时保障关键基础设施防攻击能力,筑牢国家安全技术屏障,对塑造未来科技竞争优势具有深远战略意义。
五是,空天超广域高效感知大模型。近年来,以DeepSeek、GPT-5为代表的大模型技术推动了人工智能领域的范式变革。在此背景下,构建面向空天观测与理解的专用大模型,正成为推动跨域空天信息智能处理的关键前沿方向。我国高空无人机、飞艇等航空遥感平台协同高分、资源、商遥等系列遥感卫星,已具备单景十亿像素、覆盖数十万平方公里的超广域观测能力,因此对适配这一新型数据范式的全局智能感知与解译体系提出了全新的科学挑战。发展空天超广域高效感知大模型,不仅是技术演进的必然趋势,更将成为空天信息智能化和安全能力建设的革命性支撑,对维护空天安全、提升全域态势感知能力具有重大战略意义。
当前亟待解决的关键科学问题包括:如何在受限的时空与计算资源条件下,突破大模型在空天跨域场景中的计算理论与架构瓶颈;超广域高效感知是否存在普适性数理表征机制;以及如何实现大模型驱动下的快速、精准空天跨域信息解译。发展空天专用大模型,有望推动遥感AI从“局部空间智能”向“超广域空天智能”跃迁,既是突破海量遥感数据实时智能处理瓶颈的关键路径,也是构建自主可控空天智能感知体系、支撑我国在全球空间智能竞争中抢占制高点的重要举措。
六是,视觉智能体的因果感知和推理问题。该问题旨在创造下一代视觉智能体:不仅能“看见”世界(感知像素和物体),更能“理解”世界背后的运作机制(因果规律)。这意味着该智能体需要感知和建模场景中实体、空间、行为的因果结构。突破此问题,是推动计算机视觉从关联式“模式识别”迈向因果式“认知推理”的关键,是实现AGI的核心阶梯。
涉及的前沿研究方向包括:其一,因果发现与表示:从视觉序列数据中推断物体间的因果互动关系。其二,因果启发的学习:利用因果干预技术,剥离数据中的虚假相关,提升模型的泛化与鲁棒性。其三,物理与因果融合:将物理规律作为先验知识,引导模型生成符合因果律的预测。
需突破的科技问题点:一,无监督学习因果图构建:如何仅从视觉数据中,自动、准确地识别出因果结构,而非依赖人工标注。二,自主反事实推理方法:实现基于“如果...则会...”假设的精准视觉内容理解与自主推理。三,跨模态因果世界模型:将视觉感知与语言等模态结合,建立统一的因果世界模型。
预期重大效益与作用:将革命性推动自动驾驶(分布外处理能力)、具身智能(跨任务泛化能力)、智慧医疗(病因自主分析能力)等领域,催生新质生产力。赋能自主无人系统在复杂对抗环境中(如灾难现场)的自主决策与态势理解能力,提升监测能力。
七是,知识约束的可控图像和视频生成。当前生成式大模型虽在图像与视频生成质量上快速提升,但对现实世界的理解仍不准确,常出现结构、语义与物体交互不符合常识的现象,真实感与可信度仍受限。同时,其可控性也较弱,即便给出明确指令,模型仍难稳定生成符合预期的结果,在自动驾驶、新闻媒体、医疗健康等场景应用中更容易带来隐患。因此,构建具备知识约束并支持可控生成的逼真图像和视频生成方法具有必要性和重要价值。
面向知识约束的可控图像和视频生成,前沿研究主要沿显式知识建模和隐式世界机制学习两条路径推进。一方面,通过将知识图谱、因果结构和物体功能属性等融入生成模型,使其在用户控制下更好地遵循场景逻辑与语义常识。另一方面,引入物理引擎、可微渲染与三维重建等模块,以学习光照、遮挡和动力学规律,从而获得物理一致且可控的结构与行为。未来,统一的知识—物理联合建模框架和跨模态可控编辑接口有望进一步提升模型对现实世界的结构化理解与可操控生成能力。
该问题预期在自动驾驶、机器人、具身智能和医疗健康等领域应用中,帮助提升智能模型的鲁棒性与安全性,为构建可信赖、多模态智能系统的提供重要基础支撑。
八是,基于物理驱动的4D医学预测成像。4D医学预测成像旨在从有限时间点或静态三维医学图像中,预测组织结构和病灶在时间维度上的动态演化过程,实现对疾病进展的可视化建模。与传统的3D重建不同,4D预测成像模型关注的是未来时刻的组织形变、病灶区域与功能变化,需要全面分析和量化病变演化的内在物理机制。
当前主流方法多依赖深度生成模型(如时空扩散模型、Video GAN、或4D NeRF)实现时间序列预测成像,但这些模型往往缺乏对生理机制与病理动力学的刻画,导致预测结果虽逼真,却可能出现违背真实生理机制的“虚假演化”,缺乏临床可解释性和可靠性。为此,“物理驱动的4D医学预测成像”成为新的研究前沿:它通过将可微物理引擎或病理动力学方程嵌入深度网络,使预测成像过程同时遵循数据的时序统计规律,以及组织与病灶的物理演化机制。
要实现这一目标,需解决以下核心科学问题:其一,如何构建统一框架,融合可微物理模型与预测成像网络;其二,如何学习并量化疾病演化中的关键力学与生理参数;其三,如何实现物理驱动的时空推理与多模态联合预测成像。
突破上述挑战,将使医学成像从静态观察走向基于力学规律与病理机制的主动预测,其成果将在肿瘤演化监测、眼科病变进展预测、心血管动力学模拟等重大临床场景中发挥重要作用。
九是,面向无人驾驶的多模态环境感知与安全决策一体化机制。在智能汽车迈向无人驾驶的过程中,多模态环境感知与安全决策的高效耦合是实现稳定、可信智能行为的核心挑战。因此,亟需构建面向无人驾驶的多模态环境感知与安全决策一体化机制,揭示从感知表征、语义理解到决策生成的统一因果链路,明确其内部的因果结构、可解释耦合关系以及在资源受限条件下的可计算性边界。
这一科学问题涵盖多个前沿方向,包括:跨模态表征与统一编码、轻量化多模态融合机制、视觉语义与决策逻辑的可解释耦合机理、算力受限条件下的鲁棒推理、车载端智能算法与硬件协同优化机制,以及面向复杂开放环境的安全认知理论。其核心科技挑战包括:多模态信息在资源受限条件下的稳定表征机制、视觉语义与决策逻辑之间的因果链路构建机制,以及一体化模型在极端场景下的泛化与安全冗余能力。
该科学问题的突破将推动图象图形技术在资源受限条件下向泛化智能方向演进,带动智能视觉计算、可信决策机制与车载计算体系的协同发展,对道路交通安全、无人驾驶标准体系构建、智能交通基础设施完善以及国家安全具有重要战略意义。
十是,地外天体极端环境下的智能感知与导航问题。该问题旨在研究探测器面对地外天体复杂地形、弱光照、尘埃/沙尘、低重力、高辐射、极端温差、通信延迟等极端环境和恶劣条件,如何实现实时精准的环境理解、自主路径规划与动态决策,建立精准感知和自主导航的具身智能,支撑精准着陆和高效巡视探测。
国内外巡视器导航以遥操作为主,近期的巡视器实现了初步视觉避障,但仍严重依赖地面站的干预,自主性不强,探测效率低。突破极端环境感知与导航技术,摆脱对地面遥操作的强依赖,提升探测效率与安全性,是实现长距离大范围探测的迫切需求。
前沿研究方向与关键突破点包括:其一,极端环境下的智能感知:弱光照、贫纹理、复杂地形条件下的多模态感知,高精度三维重建,障碍识别,地形分类,多探测器协同感知;其二,极端环境下的智能认知:探测环境的语义理解,高价值科学目标的自主发现,车轮滑移、沉陷的实时诊断;其三,极端环境下的自主导航决策:GNSS拒止条件下的高精度定位,长距离自主路径规划,实时反馈与决策优化;其四,地外天体探测的数字孪生建模仿真:地形、光照、星壤物理属性的精细建模,着陆、巡视过程的高保真仿真。该问题研究将赋能载人登月、月球科研站、火星采样返回等重大工程,助力重大科学发现。
问题的评选反映了《中国图象图形学报》推动学科发展、引领学术创新的战略定位与前沿布局能力,期待这些问题和方向为学科发展提供前瞻指引,同时也为广大青年学者和研究生指明富有潜力的研究方向。

启动仪式

合影
动态新闻