China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance

China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance

作者:邵杰晶、杨晓雯、张博文、陈柏志、魏文达、蔡国豪、董振华、郭兰哲、李宇峰

China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance
China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance

[🌟] 南京大学LAMDA团队与华为诺亚方舟实验室联合推出ChinaTravel——评估大语言模型旅行规划能力的突破性基准。

China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance
China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance

[❤️] 基于大语言模型的智能体快速发展,带来了令人兴奋的可能性,其中旅行规划成为极具前景的应用方向。该领域结合了复杂决策与巨大市场潜力,受到学术界与工业界的广泛关注。然而,现有基准(如TravelPlanner)存在明显不足——它们未能体现真实旅行规划的多样性与个性化需求,且主要面向西方旅行偏好,难以适配中文用户需求。

China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance
China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance

ChinaTravel应运而生:首个专为真实中文旅行场景设计的评测基准。我们创新性地通过问卷收集旅行偏好,结合神经符号学习技术,构建了具备组合泛化能力的领域专用语言。该框架支持从可行性、约束满足度到偏好对比的多维度综合评估。

China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance
China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance

数据最具说服力:神经符号智能体在旅行规划中展现出显著潜力,约束满足率达到27.9%——相较纯大语言模型的2.6%实现了质的飞跃。在这些亮眼数据之外,我们的研究还揭示了实际部署中的关键挑战,包括开放语言推理与新概念组合处理等。

China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance
China Travel Planning AI: Real-World Benchmark for Smart Travel Assistant Performance

ChinaTravel不仅测评性能——更为旅行规划能力评估树立了新标准与新视角,为这一动态领域的突破性创新铺平道路。

#研究聚焦 #大语言模型 #智能体 #旅行科技 #智能规划 #南京大学 #人工智能 #语言模型 #智能系统

Choose a language:

1 Comment

No comments yet. Why don’t you start the discussion?

Comments are closed