詹锟 | Kun Zhan

理想汽车基座模型团队负责人 | 自动驾驶专家 | AI 研究员

portrait.jpeg

Email: zk_1028@aliyun.com

微信: KevinZhan1990

北京,中国

面向物理世界智能的基座模型

从自动驾驶出发,构建通向机器人时代的具身智能系统

我负责理想汽车 MindVLA 与 MindGPT 团队,工作覆盖行为智能、认知智能以及量产级系统落地,重点推动自动驾驶、 智能座舱与未来机器人场景中的基座模型研发与部署。

Google Scholar zk_1028@aliyun.com KevinZhan1990 北京,中国

关于我

我是 詹锟,现负责理想汽车 MindVLA 与 MindGPT 团队,并兼任硅谷研发中心负责人。我的工作横跨行为智能与认知智能, 聚焦于自动驾驶 VLA、智能座舱 LLM/VLM 以及语音系统等基座模型的研发,并推动这些能力以车规级可靠性落地到真实产品中。

我毕业于北京航空航天大学自动化专业,随后在百度 Apollo 负责行为预测团队。自 2021 年加入理想汽车以来,我主导了三代自动驾驶技术栈的架构与部署, 正在推动系统从感知、推理、规划到动作形成统一的基座模型框架,并从驾驶场景逐步扩展到更广泛的具身智能系统。

我的长期目标是以自动驾驶为起点,实现能够感知、思考、规划并执行的物理世界 AGI,并持续扩展到机器人与更广泛的真实世界智能。

核心亮点

我重点关注的,是把研究能力转化为可规模化交付的产品系统。

大规模团队管理

领导理想汽车基座模型团队,覆盖 VLA、VLM、LLM 与世界模型,从前沿研究、大规模训练到车端落地形成闭环。

量产系统交付

持续推动高速 NoA(2022)、城市 NoA(2023)、End-to-End + VLM 双系统(2024)以及 VLA 架构(2025)落地量产。

全球化执行

搭建理想汽车美国研发中心,推动硅谷前沿探索与北京总部工程执行高效联动。

研究方向

这些主题构成了我当前研究和工程工作的主轴。

自动驾驶VLA 模型、端到端驾驶、决策与规划
计算机视觉检测、跟踪、场景理解、BEV 感知
3D 与世界模型动态重建、生成式仿真、车队级强化学习
多模态大模型推理、规划与人车交互
Agent 模型从推理到动作的工具使用、安全与可靠性
机器人具身智能、人形机器人、真实世界操作与导航

工作经历

塑造我对应用型 AI 系统理解的核心项目与岗位。

理想汽车

2021 年 4 月 - 至今

北京 / 圣何塞
基座模型团队负责人
  • 负责 VLA 基座模型研发,并推进其与自研自动驾驶芯片、智能驾驶、智能座舱和未来机器人能力的融合。
  • 从零搭建理想自动驾驶技术栈,推动架构从 E2E 演进到 VLM,再到 VLA,并在大规模量产车队中部署。
  • 管理 100+ 规模的团队,覆盖感知、规划、基座模型、仿真与车端部署。
  • 建立世界模型与强化学习方向团队,加快闭环学习,降低真实道路测试成本。
美国研发中心负责人
  • 负责海外研究团队建设,包括策略、预算与关键人才引进。
  • 通过跨时区项目评审与路线图管理,连接硅谷探索和北京总部执行。

百度 Apollo

2016 年 4 月 - 2021 年 3 月

北京,中国
L4 Prediction & Planning 算法负责人
  • 负责 RoboTaxi 场景中的 L4 预测与前决策算法,提升复杂城市场景下的行为预测可靠性。
  • 推动规划控制模块和车端深度学习组件落地,支持百度自动驾驶车队在北京、广州等城市运行。

学术成果

基于 Google Scholar 的论文与引用快照

论文数 49
总引用 1335
h-index 15
i10-index 21

Top 10 引用论文

按 Google Scholar 引用量排序,更新时间见卡片上方。

Google Scholar
Drivevlm: The convergence of autonomous driving and large vision-language models
Google Scholar 2024 引用 492

Drivevlm: The convergence of autonomous driving and large vision-language models

X Tian, J Gu, B Li, Y Liu, Y Wang, Z Zhao, K Zhan, P Jia, X Lang, H Zhao

Street gaussians: Modeling dynamic urban scenes with gaussian splatting
Google Scholar 2024 引用 361

Street gaussians: Modeling dynamic urban scenes with gaussian splatting

Y Yan, H Lin, C Zhou, W Wang, H Sun, K Zhan, X Lang, X Zhou, S Peng

Recondreamer: Crafting world models for driving scene reconstruction via online restoration
Google Scholar 2025 引用 71

Recondreamer: Crafting world models for driving scene reconstruction via online restoration

C Ni, G Zhao, X Wang, Z Zhu, W Qin, G Huang, C Liu, Y Chen, Y Wang, ...

Planagent: A multi-modal large language agent for closed-loop vehicle motion planning
Google Scholar 2024 引用 49

Planagent: A multi-modal large language agent for closed-loop vehicle motion planning

Y Zheng, Z Xing, Q Zhang, B Jin, P Li, Y Zheng, Z Xia, K Zhan, X Lang, ...

Unleashing generalization of end-to-end autonomous driving with controllable long video generation
Google Scholar 2024 引用 47

Unleashing generalization of end-to-end autonomous driving with controllable long video generation

E Ma, L Zhou, T Tang, Z Zhang, D Han, J Jiang, K Zhan, P Jia, X Lang, ...

Tod3cap: Towards 3d dense captioning in outdoor scenes
Google Scholar 2024 引用 40

Tod3cap: Towards 3d dense captioning in outdoor scenes

B Jin, Y Zheng, P Li, W Li, Y Zheng, S Hu, X Liu, J Zhu, Z Yan, H Sun, ...

Streetcrafter: Street view synthesis with controllable video diffusion models
Google Scholar 2025 引用 37

Streetcrafter: Street view synthesis with controllable video diffusion models

Y Yan, Z Xu, H Lin, H Jin, H Guo, Y Wang, K Zhan, X Lang, H Bao, X Zhou, ...

Dive: Dit-based video generation with enhanced control
Google Scholar 2024 引用 28

Dive: Dit-based video generation with enhanced control

J Jiang, G Hong, L Zhou, E Ma, H Hu, X Zhou, J Xiang, F Liu, K Yu, H Sun, ...

Finetuning generative trajectory model with reinforcement learning from human feedback
Google Scholar 2025 引用 26

Finetuning generative trajectory model with reinforcement learning from human feedback

D Li, J Ren, Y Wang, X Wen, P Li, L Xu, K Zhan, Z Xia, P Jia, X Lang, N Xu, ...

Drivingsphere: Building a high-fidelity 4d world for closed-loop simulation
Google Scholar 2025 引用 23

Drivingsphere: Building a high-fidelity 4d world for closed-loop simulation

T Yan, D Wu, W Han, J Jiang, X Zhou, K Zhan, C Xu, J Shen

专利与学术服务

除了量产系统交付之外,我也持续参与技术沉淀与学术社区建设。

专利

已授权或公开专利 20 项,其中中国 18 项、美国 2 项,覆盖感知、规划和高精地图等方向。

审稿服务

担任 CVPR、ICCV、ECCV、NeurIPS、AAAI、IROS 以及 TPAMI、T-ITS、T-IV 等会议期刊审稿人。

学术组织

参与组织 CVPR 2023 Autonomous Driving Workshop,并持续分享 VLA 在量产环境中的技术实践。