聊聊备受争议的AI评测,与崛起的LMArena

日期:2025-11-03 16:19:07 / 人气:7


在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。
在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。
在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?
一、题库泄露、数据污染传统Benchmark为何失灵?
在LMArena之前,AI大模型是怎么被评估的呢?方式其实非常“传统”。研究者们通常会准备一组固定的题库,比如MMLU、BIG-Bench、HellaSwag等等。这些名字普通人看起来很陌生,但在AI学术界几乎家喻户晓。这些题库涵盖学科、语言、常识推理等多个维度,通过让不同模型作答,再根据答对率或得分来对模型进行比较。
比如MMLU,全称是“Massive Multitask Language Understanding”,它涵盖了从高中到博士级别的57个知识领域,包括历史、医学、法律、数学、哲学等等,模型既需要回答像“神经网络中的梯度消失问题如何解决”的技术问题,也需要回答“美国宪法第十四修正案的核心内容是什么”的社会科学问题,学科跨度很大。BIG-Bench更偏向推理和创造力,比如让模型解释冷笑话、续写诗歌或完成逻辑填空。HellaSwag则专门用来测试模型对日常情境的理解能力,比如“一个人正在打开冰箱,接下来最可能发生什么?”等等。
这些Benchmark在过去二十年几乎主导了整个 AI 研究领域。它们的优点显而易见:标准统一、结果可复现。学术论文只要能在相关公开数据集上刷新分数,就意味着“性能更强”。而AI的上半场也正是在这种“比成绩”的节奏下高速发展起来的。但这些早期的Benchmark是静态的,多以单轮问答、选择题形式为主,题目结构简单、评测维度明确,便于统一打分和横向比较。
然而,当模型的能力越来越强、训练数据越来越庞大时,这些Benchmark的局限开始显现。首先是“题库泄漏”,很多测试题早就出现在模型的训练语料里。于是,一个模型在这些测试上得分再高,也不代表它真的“理解”了问题,只能说明它“记住”了答案。其次,Benchmark永远测不出模型在真实交互中的表现,它更像是一场封闭的考试,而不是一次开放的对话。
华盛顿大学助理教授、英伟达首席研究科学家,同时也是LMArena早期框架搭建参与者朱邦华在采访中表示,正是因为传统的静态Benchmark所存在的过拟合、数据污染等问题,才催生出了Arena这种新的模型测评方式的出现。
朱邦华(华盛顿大学助理教授,英伟达首席研究科学家):当时比较流行的几个Benchmark,比如Math500、MMLU,有几个问题。大家非常容易overfit(过拟合),比如一共就有几百个问题,我如果都有ground truth(标准答案),而且我都有训练在ground truth(标准答案)上,虽然有一些所谓的contamination detection method(污染检测方式),但其实这个是比较难真的百分之百做到detection(检测)。所以这种static benchmark(静态基准),一是数量很少,二是大家可能覆盖面不太够,它可能就有最简单的数学,最简单的一些基础知识,然后最简单的一些代码生成,像HumanEval这种。当时的Benchmark数量少,同时coverage(覆盖面)也不太好的情况下,Arena就作为一个非常独特的Benchmark出现了,因为它每一个问题都是unique(独特的),它可能是世界各地的人问, 可能是俄罗斯或者越南的人在问你这样一个问题,同时他问的问题真的就是随时随地、当时当地去想的一个问题,所以这个事就很难去在当时overfit(过拟合),尤其是在当时大家都没有Arena数据的时候。

作者:安信14娱乐平台官网




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 安信14注册登录娱乐中国站 版权所有