大模型评测基准索引

覆盖通用/对话/代码/数学/多模态/Agent。提供搜索与筛选，快速定位"该用哪个 benchmark、看哪些指标、有哪些坑"。