PlanGPT

🔔News

[2025-05-20] PlanGPT-VL已正式在Modelscope平台开源，并同步开放测试通道，欢迎试用与反馈.

[2025-05-20] 同济大学校庆日：工程智能研究院、城市时空智能研究中心成立.

[2025-05-20] “冲之场”——AI赋能时空智能论坛、PlanGPT-2系列成果宣讲与陆续发布.

[2025-05-16] 祝贺实验室朱赫同学2篇关于数据合成技术的长论文《FANNO》和《Tag-Instruct》被计算机顶会ACL findings接收.

[2025-05-09] 祝贺实验室阶段性成果PlanGPT-1.5被顶会ACL Industry Track接收，并获得Oral Presentation机会.

[2025-05-09] 同济大学高层次人才科研项目立项：整合大数据与大模型的空间规划智能技术研究.

[2025-05-01] 欢迎王琦、郑宏舟加入实验室，攻读城市规划博士和智能科学与技术博士.

[2025-04-15] 欢迎安枫泓，查思齐，邓闯，李瀚滢加入实验室，攻读硕士研究生.

[2025-01-14] 上海市教委人工智能促进科研范式改革赋能学科跃升计划项目重点项目获批立项：提升空间认知决策能力的城乡规划垂域大模型研发.

[2024-12-12] 2个大模型相关项目（中规院、深圳海促中心）顺利完成结题.

PlanGPT: Enhancing Urban Planning with Tailored
Language Model and Efficient Retrieval

arXiv 🔗主页

摘要

在城市规划领域，通用大语言模型通常无法满足规划师的特定需求。生成城市规划文本、检索相关信息和评估规划文件等任务都存在独特的挑战。为提高城市专业人员的效率并克服这些障碍，我们推出了 PlanGPT，这是第一个专为城市和空间规划量身定制的专业语言模型。通过与中国城市规划研究院等机构的协作努力，PlanGPT利用定制的本地数据库检索框架、基于行业的基础模型微调以及先进的工具能力进行开发。实证测试证明，PlanGPT取得了先进的表现，提供精准适应城市规划细节的优质响应。

技术架构

Figure 1: PlanGPT-1/1.5 Architecture.

PlanGPT-1.5：在PlanGPT-1的基础上，补充了从城市规划实务界业务场景应用大模型的经验、进一步缓解幻觉的方法、减少人工标注成本的数据合成技术探索等工程落地关键技术，论文已被ACL'25 (Industry) Oral接收，在四个reviewers中收获一个9/10评价，高度认可了PlanGPT在行业大模型中的价值。

“The paper describes a real-life implementation of an LLM-based assistant tailored to a specific domain and highlights the importance of tailoring each component to obtain good usable results. It can serve as a reference for carrying out similar adaptations in other domains and use cases.”

📅 发布日期：2023年9月28日

A Comprehensive Benchmark for Evaluating Urban Planning Capabilities in Large Language Models

🔗主页

摘要

城市规划作为高度跨学科、实践导向强的领域，其测试不仅仅是对知识的简单回忆，更涉及复杂情境判断、政策理解、空间逻辑推理与价值评估。规划类文本具有术语密集、结构复杂、推理链条长等特点。构建benchmark有助于提升大模型在以下方面的规划适配能力：

规划文本解构能力（如条例拆解、指标判读）
多层级空间治理逻辑能力（国家-城市-社区）
情境化政策判断与方案生成能力（如选址、用地配置、产业建议）

文本类benchmark是“多模态城市智能”的语言基础。在后续与地图、图表、空间模型的整合中，文本理解能力是完成“图-文-策”三维联动的基础环节。

技术架构

Figure 2: PlanBench-Text Architecture.

📅 发布日期：2025年5月19日

Multimodal Multi-image Understanding for Evaluating Multimodal Large Language Models

🔗主页

摘要

国土空间规划图是将国土空间规划的理念、目标、策略和具体措施以地图的形式直观展示出来，用于指导和协调各类国土空间开发、保护和利用活动。它不仅是规划决策的重要依据，也是公众参与和监督规划实施的重要工具。规划是综合性和专业性极强的工作，如果要读透规划图纸，不仅要抓住精细的元素（符号、图例和地理要素等），还要有结合政策进行综合分析和判断的能力。这种复杂性使得规划图的理解具有挑战性。随着多模态大型语言模型（MLLMs）的快速发展，我们建立了国土空间规划图的Benchmark，以评估MLLMs在规划图理解方面的能力。我们的贡献如下：

(1) 数据： 我们构建了一个专家标注的规划图数据库Spatial Planning Map Database（SPMD），其特点是多样化的图像内容和由规划领域专家提供的高质量标注。
(2) 框架： 我们提出了一套基于规划学科的综合标准，从感知、推理、关联、应用四个角度衡量MLLMs的规划图理解能力，包括8个细分类别。
(3) 实验： 通过基于权威题库（中国注册城市规划师执业资格考试实务题目）知识构建的问答任务，显著降低了模型“幻觉式规范引用”的比例。
(4) 结果： 所有模型在应用维度表现最差，Qwen2.5-VL-32B-Instruct 四个维度综合得分最高。

技术架构

Figure 3: PlanBench-VL Architecture.

📅 发布日期：2025年5月19日

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

PlanGPT-VL已正式在Modelscope平台开源，并同步开放测试通道，欢迎试用与反馈。

arXiv 🔗主页 Model

摘要

尽管城市规划地图对规划专业人员和教育工作者至关重要，但现有视觉-语言模型（VLMs）在解读和评估这类专业地图时往往表现欠佳。这些规划地图通过可视化呈现土地用途、基础设施布局和功能分区等关键信息，理解它们需要特定领域知识，而普通VLMs通常缺乏这种专业能力。针对这一问题，我们开发了PlanGPT-VL，这是首个专为城市规划地图设计的领域特定视觉-语言模型，具有三大创新：(1)PlanAnno-V框架：用于生成高质量规划地图视觉问答数据；(2)关键点思维机制：通过结构化验证方法有效减少模型幻觉；(3)PlanBench-V评测基准：首个全面评估规划地图理解能力的系统测试标准。实验结果显示，与开源和商业VLMs相比，PlanGPT-VL在专业规划任务上的平均性能提升了59.2%。值得注意的是，尽管我们的模型仅有70亿参数，属于轻量级规模，但其表现已能媲美超过720亿参数的大型模型，为城市规划师提供了一个既可靠又具高事实准确性的专业地图分析工具。

技术架构

Figure 4: PlanGPT-VL Architecture.

📅 发布日期：2025年5月19日

FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs Only

arXiv 🔗主页

Accepted by ACL 2025 Findings

摘要

指令微调作为利用大规模语言模型（LLM）提升任务性能的重要进展，然而，指令数据集的标注传统上是一项既昂贵又繁琐的过程，通常依赖于手动标注或昂贵的专有LLM API调用。为了解决这些挑战，我们提出了FANNO，一个完全自主且开源的框架，彻底革新了标注过程，无需预先存在的标注数据。FANNO利用Mistral-7b-instruct模型，通过文档预筛选、指令生成和响应生成等结构化过程，高效地生成多样且高质量的数据集。通过在Open LLM Leaderboard和AlpacaEval基准测试上的实验结果表明，FANNO能够免费生成与人工标注或经过清理的数据集（如Alpaca-GPT4-Cleaned）相当的高质量、多样性和复杂度的数据。

技术架构

Figure 5: FANNO Architecture.

📅 发布日期：2024年8月2日

Tag-Instruct: Controlled Instruction Complexity Enhancement through Structure-based Augmentation

PDF 🔗主页

Accepted by ACL 2025 Findings

摘要

高质量的指令数据对开发大规模语言模型（LLM）至关重要，但现有方法在有效控制指令复杂度方面存在困难。我们提出了TAG-INSTRUCT，这是一个通过结构化语义压缩和受控难度增强来提升指令复杂度的新框架。与以前基于提示的方法（直接处理原始文本）不同，TAG-INSTRUCT将指令压缩到一个紧凑的标签空间，并通过强化学习引导的标签扩展系统地增强复杂度。通过广泛的实验，我们展示了TAG-INSTRUCT在指令复杂度增强方面优于现有方法。我们的分析表明，在标签空间中操作提供了更优的可控性和稳定性，适用于不同的指令合成框架。

技术架构

Figure 6: Tag-Instruct Architecture.

📅 发布日期：2025年5月8日

GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework

arXiv

摘要

理解空间位置和关系是现代人工智能系统的基本能力。人类空间认知的研究为这一领域提供了宝贵的指导。神经科学的发现突出了网格细胞在空间表征中的重要作用，包括距离计算、路径整合和尺度辨识。本文介绍了一种新颖的位置编码方案，灵感来源于傅里叶分析以及最新的计算神经科学关于网格细胞的研究成果。假设网格细胞通过傅里叶基函数的总和来编码空间位置，我们展示了在内积计算过程中，网格表示具有平移不变性。此外，我们基于生物学效率原理推导出了多维欧几里得空间的最优网格尺度比率。利用这些计算原理，我们开发了一种受网格细胞启发的位置编码技术，称为GridPE，用于高维空间中的位置编码。我们将GridPE集成到金字塔视觉变换器架构中。我们的理论分析表明，GridPE为任意高维空间中的位置编码提供了统一的框架。实验结果表明，GridPE显著提升了变换器的性能，强调了将神经科学洞察力融入人工智能系统设计的重要性。

技术架构

Figure 7: GridPE Architecture.

📅 发布日期：2024年6月11日

大语言模型助力社区生活圈规划与治理研究

即将刊登在《上海城市规划》

摘要

围绕生活圈规划与社区治理，LLM 可在以下关键环节中发挥赋能作用。首先，通过自然语言交互，LLM 可理解居民在不同情境下的真实诉求，自动从聊天记录、问卷文本、社交平台评论中提取需求主题与情感倾向，实现需求的自动归类与优先级排序，破解居民需求异质性高与表达方式非结构化之间矛盾所带来的精准服务供给困难。其次，LLM 能够将来自传感器网络、社区GIS、人口统计、政务服务平台等的数据进行语义整合与关系建模，提升数据间的可解释性与可操作性，为生活圈的功能评估、资源配置与空间优化提供支撑。同时，在社区协同治理过程中，LLM 可充当“中介智能体”，支持居民与街道办、物业、企业等多元主体之间的语义桥接，辅助完成政策解释、议题协商、共识生成等过程，提升协同效率与满意度。

技术架构

Figure 8: 地理邻近性增强的多模态RAG框架.

由实验室李博洋与黄诺贤研发的微信小程序“方元问问”部分实现了上述大模型助理生活圈规划与治理的场景，聚焦在针对社区居民和商家的公共服务设施信息智能助手，目前已经在深圳市南头古城社区展开试运行与落地实验。该应用通过微信小程序的自然语言交互，结合社区的地理信息与多模态数据，实现了对社区公共服务设施的智能查询与推荐，为社区居民提供了便捷的服务导航与咨询。同时，该应用还支持社区居民与商家之间的信息共享与交易，为社区的公共服务设施管理与运营提供了支持。

Figure 9: “方元问问”社区应用场景示例.

📅 发布日期：2024年8月26日

提升空间认知与决策能力的规划大模型
（PlanGPT系列）

🔔News

PlanGPT-1/1.5

PlanGPT: Enhancing Urban Planning with Tailored
Language Model and Efficient Retrieval

摘要

技术架构

PlanBench规划知识基准

A Comprehensive Benchmark for Evaluating Urban Planning Capabilities in Large Language Models

摘要

技术架构

PlanBench规划图识基准

Multimodal Multi-image Understanding for Evaluating Multimodal Large Language Models

摘要

技术架构

PlanGPT-VL

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

摘要

技术架构

数据合成技术研究

FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs Only

摘要

技术架构

Tag-Instruct: Controlled Instruction Complexity Enhancement through Structure-based Augmentation

摘要

技术架构

类脑空间智能：位置编码赋能大模型

GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework

摘要

技术架构

生活圈大模型

大语言模型助力社区生活圈规划与治理研究

摘要

技术架构

实验室成员

提升空间认知与决策能力的规划大模型（PlanGPT系列）

🔔News

PlanGPT-1/1.5

PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

摘要

技术架构

PlanBench规划知识基准

A Comprehensive Benchmark for Evaluating Urban Planning Capabilities in Large Language Models

摘要

技术架构

PlanBench规划图识基准

Multimodal Multi-image Understanding for Evaluating Multimodal Large Language Models

摘要

技术架构

PlanGPT-VL

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

摘要

技术架构

数据合成技术研究

FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs Only

摘要

技术架构

Tag-Instruct: Controlled Instruction Complexity Enhancement through Structure-based Augmentation

摘要

技术架构

类脑空间智能：位置编码赋能大模型

GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework

摘要

技术架构

生活圈大模型

大语言模型助力社区生活圈规划与治理研究

摘要

技术架构

实验室成员

提升空间认知与决策能力的规划大模型
（PlanGPT系列）

PlanGPT: Enhancing Urban Planning with Tailored
Language Model and Efficient Retrieval