一、背景与目的
xBench 是红杉中国发布的一个新的 AI Agent 评估框架,其核心目标是:动态追踪 AI 的“通用智能”进展 + 实际应用价值(Utility)。

传统评测只关注学术题目,xBench 要追踪现实问题解决能力。
二、核心设计:双轨制
xBench 采用“双轨”框架:
|
|
|
---|---|---|
AGI Tracking |
|
|
Profession-Aligned |
|
|
三、为何构建 xBench
1. 与真实价值脱节: 很多 benchmark 解决的只是“更难的题”,但现实世界更关心解决实际问题。
2. 静态测试集容易被“刷榜”: 模型过拟合静态数据,无法长期跟踪谁在真正进步。
四、xBench 的亮点
-
动态更新:不同于传统静态评测集,xBench 是“活”的 benchmark。 -
技术-市场匹配度(TMF)追踪:关注哪个模型最接近市场需求。 -
开放第三方评测机制:尤其 AGI Track,面向社区开放,保证公平性。
AGI Tracking
AGI Tracking 是 xBench 的「基础智能评估」轨道,目标是:
系统性评估通向 AGI(人工通用智能)过程中的关键能力。
它将 Agent 能力划分为四大维度:
-
基础智能(Fundamental Intelligence) -
专业能力(Professional Capabilities) -
创新能力(Innovation Capacity) -
组织能力(Organizational Abilities)
这四大维度共同构成了一个「能力矩阵」,每个维度下再细分出多个子能力。如下图所示:
? 每项能力,具体评估什么
|
|
|
---|---|---|
Fundamental Intelligence |
|
|
|
|
|
|
|
|
|
|
|
Professional Capabilities |
|
|
|
|
|
|
|
|
Innovation Capacity |
|
|
|
|
|
Organizational Abilities |
|
|
|
|
|
其中绿色 Active 表示当前已上线 benchmark:
-
✅ 知识能力(Knowledge):使用 ScienceQA benchmark,评估模型对人类广泛知识的掌握。 -
✅ 工具使用能力(Tool Usage):通过 AI Search benchmark,评估模型与工具交互与操控的能力。
其余模块均为「Benchmark coming soon」,后续将会逐步“点亮”。
为什么这很重要
传统 benchmark 像一次考试,而 AGI Tracking 更像是:
一个全天候、多维度、动态更新的“AI 智能体质报告”。
三个关键点:
-
防刷榜机制(Contamination-Free):每次测试都干净,防止模型靠记忆上榜。 -
真实能力地图:不以评分单一排序,而是关注整体能力布局。 -
反映非线性成长路径:有的模型组织力强,有的推理好——路径不同,但都值得追踪。
Profession-Aligned

Profession-Aligned 是 xBench 的职业能力评估轨道,强调:
AI 在具体行业工作流中的实用能力 + 人类偏好适配度。
这类评估不仅测试模型是否能完成任务,还强调:
-
是否懂流程(Workflow-aware) -
是否有输出质量(符合 KPI 要求) -
是否理解人类偏好(Human-centered)
当前已上线的专业领域(截至 2025.5)

目前已有两个行业场景开放 benchmark:
-
HR(人力资源) - AI 招聘官、面试助手、绩效评估等任务
-
Marketing(市场营销) - 竞品分析、活动策划、内容撰写等任务
其余如 Sales、Finance、Legal、Engineering、Product、Design 等板块尚未上线,但已规划中。
如何测试「专业能力」
xBench 的 Profession-Aligned 路线强调三件事:
1. 任务场景真实
评估任务源自真实公司流程和业务需求,而非人为拼凑的题库。
2. 人类反馈驱动
加入“人偏好评分”(Human preference scoring),衡量输出是否令人满意。
3. KPI 对齐
每个任务与岗位关键绩效指标(KPI)强绑定,确保“能力等于产出”。
这意味着,你测出来的“AI 营销助理分数”,能直接反映它是否值得你“雇佣”。