主页 | 詹锟 | Kun Zhan

Email: zk_1028@aliyun.com

微信: KevinZhan1990

北京，中国

面向物理世界智能的基座模型

从自动驾驶出发，构建通向机器人时代的具身智能系统

我负责理想汽车 MindVLA 与 MindGPT 团队，工作覆盖行为智能、认知智能以及量产级系统落地，重点推动自动驾驶、智能座舱与未来机器人场景中的基座模型研发与部署。

联系合作查看论文

Google Scholar zk_1028@aliyun.com KevinZhan1990 北京，中国

关于我

我是詹锟，现负责理想汽车 MindVLA 与 MindGPT 团队，并兼任硅谷研发中心负责人。我的工作横跨行为智能与认知智能，聚焦于自动驾驶 VLA、智能座舱 LLM/VLM 以及语音系统等基座模型的研发，并推动这些能力以车规级可靠性落地到真实产品中。

我毕业于北京航空航天大学自动化专业，随后在百度 Apollo 负责行为预测团队。自 2021 年加入理想汽车以来，我主导了三代自动驾驶技术栈的架构与部署，正在推动系统从感知、推理、规划到动作形成统一的基座模型框架，并从驾驶场景逐步扩展到更广泛的具身智能系统。

我的长期目标是以自动驾驶为起点，实现能够感知、思考、规划并执行的物理世界 AGI，并持续扩展到机器人与更广泛的真实世界智能。

大规模团队管理

领导理想汽车基座模型团队，覆盖 VLA、VLM、LLM 与世界模型，从前沿研究、大规模训练到车端落地形成闭环。

量产系统交付

持续推动高速 NoA（2022）、城市 NoA（2023）、End-to-End + VLM 双系统（2024）以及 VLA 架构（2025）落地量产。

全球化执行

搭建理想汽车美国研发中心，推动硅谷前沿探索与北京总部工程执行高效联动。

自动驾驶VLA 模型、端到端驾驶、决策与规划

计算机视觉检测、跟踪、场景理解、BEV 感知

3D 与世界模型动态重建、生成式仿真、车队级强化学习

多模态大模型推理、规划与人车交互

Agent 模型从推理到动作的工具使用、安全与可靠性

机器人具身智能、人形机器人、真实世界操作与导航

基座模型团队负责人

负责 VLA 基座模型研发，并推进其与自研自动驾驶芯片、智能驾驶、智能座舱和未来机器人能力的融合。
从零搭建理想自动驾驶技术栈，推动架构从 E2E 演进到 VLM，再到 VLA，并在大规模量产车队中部署。
管理 100+ 规模的团队，覆盖感知、规划、基座模型、仿真与车端部署。
建立世界模型与强化学习方向团队，加快闭环学习，降低真实道路测试成本。

美国研发中心负责人

负责海外研究团队建设，包括策略、预算与关键人才引进。
通过跨时区项目评审与路线图管理，连接硅谷探索和北京总部执行。

L4 Prediction & Planning 算法负责人

负责 RoboTaxi 场景中的 L4 预测与前决策算法，提升复杂城市场景下的行为预测可靠性。
推动规划控制模块和车端深度学习组件落地，支持百度自动驾驶车队在北京、广州等城市运行。

论文数 49

总引用 1335

h-index 15

i10-index 21

Google Scholar 2024 引用 492

Drivevlm: The convergence of autonomous driving and large vision-language models

X Tian, J Gu, B Li, Y Liu, Y Wang, Z Zhao, K Zhan, P Jia, X Lang, H Zhao

论文链接 Scholar PDF DOI arXiv

Google Scholar 2024 引用 361

Street gaussians: Modeling dynamic urban scenes with gaussian splatting

Y Yan, H Lin, C Zhou, W Wang, H Sun, K Zhan, X Lang, X Zhou, S Peng

论文链接 Scholar PDF DOI arXiv

Google Scholar 2025 引用 71

Recondreamer: Crafting world models for driving scene reconstruction via online restoration

C Ni, G Zhao, X Wang, Z Zhu, W Qin, G Huang, C Liu, Y Chen, Y Wang, ...

论文链接 Scholar PDF DOI arXiv

Google Scholar 2024 引用 49

Planagent: A multi-modal large language agent for closed-loop vehicle motion planning

Y Zheng, Z Xing, Q Zhang, B Jin, P Li, Y Zheng, Z Xia, K Zhan, X Lang, ...

论文链接 Scholar PDF DOI arXiv

Google Scholar 2024 引用 47

Unleashing generalization of end-to-end autonomous driving with controllable long video generation

E Ma, L Zhou, T Tang, Z Zhang, D Han, J Jiang, K Zhan, P Jia, X Lang, ...

论文链接 Scholar PDF DOI arXiv

Google Scholar 2024 引用 40

Tod3cap: Towards 3d dense captioning in outdoor scenes

B Jin, Y Zheng, P Li, W Li, Y Zheng, S Hu, X Liu, J Zhu, Z Yan, H Sun, ...

论文链接 Scholar PDF DOI arXiv

Google Scholar 2025 引用 37

Streetcrafter: Street view synthesis with controllable video diffusion models

Y Yan, Z Xu, H Lin, H Jin, H Guo, Y Wang, K Zhan, X Lang, H Bao, X Zhou, ...

论文链接 Scholar PDF DOI arXiv

Google Scholar 2024 引用 28

Dive: Dit-based video generation with enhanced control

J Jiang, G Hong, L Zhou, E Ma, H Hu, X Zhou, J Xiang, F Liu, K Yu, H Sun, ...

论文链接 Scholar PDF DOI arXiv

Google Scholar 2025 引用 26

Finetuning generative trajectory model with reinforcement learning from human feedback

D Li, J Ren, Y Wang, X Wen, P Li, L Xu, K Zhan, Z Xia, P Jia, X Lang, N Xu, ...

论文链接 Scholar PDF DOI arXiv

Google Scholar 2025 引用 23

Drivingsphere: Building a high-fidelity 4d world for closed-loop simulation

T Yan, D Wu, W Han, J Jiang, X Zhou, K Zhan, C Xu, J Shen

论文链接 Scholar PDF DOI arXiv

专利

已授权或公开专利 20 项，其中中国 18 项、美国 2 项，覆盖感知、规划和高精地图等方向。

审稿服务

担任 CVPR、ICCV、ECCV、NeurIPS、AAAI、IROS 以及 TPAMI、T-ITS、T-IV 等会议期刊审稿人。

学术组织

参与组织 CVPR 2023 Autonomous Driving Workshop，并持续分享 VLA 在量产环境中的技术实践。

詹锟 | Kun Zhan

从自动驾驶出发，构建通向机器人时代的具身智能系统

关于我

核心亮点

大规模团队管理

量产系统交付

全球化执行

研究方向

工作经历

理想汽车

百度 Apollo

学术成果

Top 10 引用论文

Drivevlm: The convergence of autonomous driving and large vision-language models

Street gaussians: Modeling dynamic urban scenes with gaussian splatting

Recondreamer: Crafting world models for driving scene reconstruction via online restoration

Planagent: A multi-modal large language agent for closed-loop vehicle motion planning

Unleashing generalization of end-to-end autonomous driving with controllable long video generation

Tod3cap: Towards 3d dense captioning in outdoor scenes

Streetcrafter: Street view synthesis with controllable video diffusion models

Dive: Dit-based video generation with enhanced control

Finetuning generative trajectory model with reinforcement learning from human feedback

Drivingsphere: Building a high-fidelity 4d world for closed-loop simulation

专利与学术服务

专利

审稿服务

学术组织