Ø 个人简介:
赵朝阳,博士,男,中国科学院正高级工程师,中科视语(北京)科技有限公司CEO。北京市京西智谷算法领军人才,广州市产业领军人才。
长期专注于具身智能与多模态大感知技术在真实场景中的落地研究,围绕具身智能、多模态感知与视觉大模型方向的研究与工程化应用,致力于推动前沿人工智能技术在复杂真实场景中的实用性探索。在视觉多模态大模型、具身智能体、目标检测与三维感知等方向形成了从基础理论研究 → 系统架构实现 → 工程与产业化部署的完整技术闭环。
在 CVPR、NeurIPS、TPAMI 等国际顶级会议与期刊发表论文 60 余篇,获吴文俊人工智能科技奖。长期负责科研成果的工程转化与产品化工作,主导多项国家级科研项目与国央企规模化工程应用,具备同时统筹科研创新与复杂工程落地的综合能力。获人工智能领域国内外竞赛冠军20余项,授权人工智能领域相关发明专利30余项。
2018年起带领产业化团队围绕打造全栈国产化人工智能重大基础设施建设的使命,建设以工业大模型为核心的开放人工智能平台,相关研究成果在智能制造、智慧能源、智慧医疗等领域进行了产品化和市场拓展,取得了良好的落地应用示范。
Ø 主要科研路线介绍:
(1)多模态表征学习(计算机视觉算法 / 视觉自监督学习)
早期研究聚焦于复杂场景下鲁棒视觉表征学习问题,围绕自监督与弱监督范式,探索在无标注或弱标注条件下学习具有判别性的视觉表示。相关工作包括零样本背景建模(CVPR 2023)、任意场景自监督表示学习(CVPR 2024)以及一致性约束的高效 MAE 模型(TPAMI 2024),为后续多模态与具身智能研究奠定了统一、可泛化的视觉表征基础。
(2)多模态推理与视觉大模型(VLM & LVM)
在视觉表征基础上,研究进一步拓展至视觉—语言多模态大模型的推理机制,重点关注跨模态对齐、语义组合推理与幻觉抑制问题。相关成果系统研究了细粒度语义引导优化(MM 2023)、关系关联指令建模与幻觉评测(IEEE DataPort 2024),并将视觉理解能力与语言推理能力深度耦合,为面向复杂任务的多模态推理提供方法支撑。
(3)具身多模态大模型
近期研究聚焦具身智能场景中“感知—推理—行动”统一建模问题,提出 PhysVLM 系列模型,将物理可达性、环境约束与主动感知引入视觉—语言模型框架。相关成果发表于 CVPR 2025 与 NeurIPS 2025,系统验证了模型在真实机器人平台中的推理与决策能力,推动多模态大模型从静态理解向物理世界中的自主智能演进。
Ø 主要项目支持:
Ø主持 国家自然科学基金青年项目:基于上下文学习的层次化行为分析与理解
Ø主持 国家自然科学基金面上项目:基于自适应深度表观模型的高效目标跟踪方法研究
Ø主持 国家自然科学基金面上项目:基于数据驱动学习的通用目标检测
Ø主持 北京市“揭榜挂帅”项目:基于人工智能的老年人情感关爱系统研发与示范
Ø
Ø 学术成果列表
个人主页:
GoogleScholar:
https://scholar.google.com/citations?user=LnA85TMAAAAJ&hl=en&oi=ao
DBLP:
https://dblp.org/search?q=chaoyang%20zhao%20author%3AJinqiao_Wang%3A
论文列表(近5年)
lPhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability. CVPR2025.
l PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments. NeurPS 2025.
l LightPlanner: Unleashing the Reasoning Capabilities of Lightweight Large Language Models in Task Planning. IROS 2025.
l FOCUS: Fine-grained Optimization with Semantic Guided Understanding for Pedestrian Attributes Recognition. ICME 2025.
l Efficient Masked Autoencoders With Self-Consistency. TPAMI 2024.
l Objformer: Boosting 3D object detection via instance-wise interaction. PR 2024.
l ImFusion: Boosting Two-Stage 3D Object Detection via Image Candidates. Signal Processing Letters 2024.
l A fast mask synthesis method for face recognition. Visual Intelligence 2024.
l Self-Supervised Representation Learning from Arbitrary Scenarios. CVPR2024.
l The Devil is in Details: Delving Into Lite FFN Design for Vision Transformers. ICASSP2024.
l Relation-Associated Instructions & Hallucination Benchmark. IEEE DataPort 2024.
l ZBS: Zero-Shot Background Subtraction via Instance-Level Background Modeling and Foreground Selection. CVPR 2023.
l Pruning-aware Sparse Regularization for Network Pruning. Int. J. Autom. Comput. 20(1): 109-120 (2023).
l PruneFaceDet: Pruning lightweight face detection network by sparsity training. Cogn. Comput. Syst. 4(4): 391-399 (2022).
l UniVIP: A Unified Framework for Self-Supervised Visual Pre-training. CVPR 2022.
l C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection. CVPR 2022.
l Transfering Low-Frequency Features for Domain Adaptation. ICME 2022.
l Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual Tasks. NeurIPS 2022.
l Adaptive Class Suppression Loss for Long-Tail Object Detection. CVPR 2021.
l DPT: Deformable Patch-based Transformer for Visual Recognition. ACM Multimedia 2021.
l MST: Masked Self-Supervised Transformer for Visual Representation. NeurIPS 2021.
Ø 发明专利列表
l 发明专利:车纹识别方法及装置 202110326344.1
l 发明专利:基于图卷积网络的视觉检索模型的无监督训练方法和装置 202111594299.4
l 发明专利:车辆重识别方法、装置、电子设备及存储介质 202111617341.X
l 发明专利:一种基于级联网络的车辆重识别方法及装置 202210003030.2
l 发明专利:细粒度图像识别模型训练、图像识别方法及装置 202210812717
l 发明专利:实用新型 验布机(一种基于计算机视觉的智能验布装置) 202222420484.8
l 发明专利:图像分析方法、装置、电子设备和存储介质 202210947162
l 发明专利:超晶板质量检测装置、方法及系统 202210829120.7
l 发明专利:超晶板底漆检测方法、装置、电子设备及存储介质 202211140547.2
l 发明专利:路面病害识别方法、装置、系统、电子设备及存储介质 202210941820.5
l 发明专利:钢管质量检测系统及检测方法 202310403600.1
l PCT发明专利:多任务的目标检测方法、装置、电子设备及存储介质 WOCN20137446
l 发明专利:边坡安全监测预警装置和预警方法 202011428765.7
l 发明专利:人体头肩区域的定位方法、定位装置和电子设备 202011432151.6
l 发明专利:人体动作识别方法、装置及系统 202110515778.6
l 发明专利:基于可形变划块的局部自注意力的图像处理方法和系统 202111575874.6
l 发明专利:人脸识别方法、装置和电子设备 202111567512.2
l 发明专利:图像分类方法及装置 202111594126.2
l 发明专利:一种长尾目标检测方法及系统 202111617270.3
l 发明专利:基于先验约束的人脸关键点检测方法及装置 202210083501.5
l 发明专利:目标跟踪方法及装置 202210109933.9
l 发明专利:人脸关键点检测方法、装置、电子设备及存储介质 202111667944
l 发明专利:图片属性预测方法、装置、电子设备和存储介质 202210127165.X
l 发明专利:点云部件分割方法、装置、电子设备与存储介质 202210839039.7