PDF
摘要
提出了一个用于端到端数据分析任务中分析轨迹的评估基准ATBench,以弥补现有评估基准在粒度细节和领域覆盖方面的不足.分析轨迹是智能体围绕分析目标,在多轮交互中持续提出问题、生成洞察,最终形成总结的分析链.通过结合已有评估基准和Kaggle平台的真实任务数据,采取目标驱动与探索驱动相结合的标注策略,构建了151个评估数据集,涵盖8个领域.此外,提出了一个细粒度的评估指标:分析轨迹得分Tscore,用于量化智能体在执行端到端数据分析任务过程中的连贯分析能力.实验结果显示,ATBench具备较高的稳定性与判别效能,能够可靠区分不同模型在端到端数据分析任务中的性能差异.同时,该基准揭示了智能体在连贯分析和洞察发现方面的不足,可为后续智能体优化提供数据支持.
关键词
Key words
ATBench:面向端到端数据分析任务的分析轨迹评估基准[J].
华东师范大学学报(自然科学版), 2025, 0(5): 43-52 DOI: