China Travel Planning AI: Real-World Benchmark for Smart Travel Assistants in 2023
作者:邵洁菁、杨晓雯、张博文、陈柏志、魏文达、蔡国豪、董振华、郭兰哲、李宇峰

[✨ 前沿动态] 南京大学LAMDA团队联合华为诺亚方舟实验室重磅推出ChinaTravel——首个针对大语言模型旅行规划能力的真实场景评测基准

[❤️ 行业革新] 随着基于大语言模型的智能体技术迅猛发展,旅行规划作为极具前景的应用场景,其复杂性与高实用价值正引发学界与工业界的广泛关注。然而现有评测体系(如TravelPlanner)存在显著局限:既未能体现真实旅行规划的个性化与多样性特征,更缺乏对中国用户独特偏好的针对性设计。

ChinaTravel应运而生——这是首个专为中文旅行场景打造的评测基准。我们创新性地通过问卷收集的真实旅行偏好与神经符号学习技术,构建出具有强组合泛化能力的领域专用语言。该框架可系统评估可行性、约束满足、偏好对比等关键维度。

数据彰显突破:神经符号智能体展现出惊人潜力,其约束满足率达27.9%,相较纯语言模型2.6%的表现实现质的飞跃。超越数字本身,本研究揭示了从开放语言推理到新概念组合处理等实际部署中的核心挑战。

ChinaTravel不仅建立性能度量新标准,更为该领域未来发展指明方向。

#科研突破 #大语言模型 #智能体 #旅行科技 #智慧规划 #南京大学 #人工智能 #语言模型 #智能系统
Comments are closed