ATBench:面向端到端数据分析任务的分析轨迹评估基准

王旭飞, 许华容, 陈攀峰, 陈梅, 马丹, 陈正曦, 田旭, 李晖

华东师范大学学报(自然科学版) ›› 2025, Vol. 0 ›› Issue (5) : 43 -52.

PDF
华东师范大学学报(自然科学版) ›› 2025, Vol. 0 ›› Issue (5) : 43 -52.

ATBench:面向端到端数据分析任务的分析轨迹评估基准

    王旭飞, 许华容, 陈攀峰, 陈梅, 马丹, 陈正曦, 田旭, 李晖
作者信息 +

Author information +
文章历史 +
PDF

摘要

提出了一个用于端到端数据分析任务中分析轨迹的评估基准ATBench,以弥补现有评估基准在粒度细节和领域覆盖方面的不足.分析轨迹是智能体围绕分析目标,在多轮交互中持续提出问题、生成洞察,最终形成总结的分析链.通过结合已有评估基准和Kaggle平台的真实任务数据,采取目标驱动与探索驱动相结合的标注策略,构建了151个评估数据集,涵盖8个领域.此外,提出了一个细粒度的评估指标:分析轨迹得分Tscore,用于量化智能体在执行端到端数据分析任务过程中的连贯分析能力.实验结果显示,ATBench具备较高的稳定性与判别效能,能够可靠区分不同模型在端到端数据分析任务中的性能差异.同时,该基准揭示了智能体在连贯分析和洞察发现方面的不足,可为后续智能体优化提供数据支持.

关键词

智能体 / 数据分析 / 评估基准

Key words

引用本文

引用格式 ▾
ATBench:面向端到端数据分析任务的分析轨迹评估基准[J]. 华东师范大学学报(自然科学版), 2025, 0(5): 43-52 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/