China Travel Planning AI Benchmark : évaluation des agents intelligents pour les Itineraries
de voyage作者 :邵洁菁、杨晓雯、张博文、陈柏志、魏文达、蔡国豪、董振华、郭兰哲、李宇峰

[ ✨ 前沿动态] 南京大学LAMDA团队联合华为诺亚方舟实验室推出ChinaTravel——首个针对大语言模型旅行规划能力的评测基准

[ ❤️ 突破性创新] 大语言模型智能体的快速发展正在重塑多个领域,其中旅行规划展现出尤为广阔的应用前景。 这一复杂且高需求的场景已引起学术界和工业界的高度关注。 然而现有评测基准(如TravelPlanner)难以反映真实旅行规划的多样化和个性化特点,尤其无法体现中国旅行者的独特偏好与习惯。

ChinaTravel应运而生——这是首个专为真实中文旅行场景设计的评测基准。 我们创新性地结合问卷收集的旅行偏好与神经符号学习技术,构建出具有卓越组合泛化能力的领域专用语言。 这一强大框架支持从可行性、约束满足度到偏好对比的多维度综合评估。

数据最具说服力 :神经符号智能体展现出惊人潜力,实现27.9 %的约束满足率,较纯大语言模型方案(2.6 %)有质的飞跃。 除量化指标外,我们的研究更揭示了从开放语言推理到处理未知概念组合等实际部署中的关键挑战。 这些发现为旅行规划能力评估树立了新标准,推动这一前沿领域的创新发展。

#研究突破 #大语言模型 #智能体 #旅行科技 #智能规划 #南京大学 #人工智能 #语言模型 #智能系统