一个创新性的开放平台SciArena近期正式启动,其核心目的在于评估大型语言模型(LLM)在科学文献处理任务中的实际效能,这一评估依据的是研究人员的真实偏好。平台运行初期,已明显观察到不同模型间存在效能差异。
SciArena由耶鲁大学、纽约大学以及艾伦人工智能研究所的专家携手打造,它专注于系统性地评测专有和开源LLM在科学文献处理方面的表现,这一领域此前缺乏系统的评估工具。
该平台采用了不同于传统基准测试的方法,效仿Chatbot Arena的模式,引入了真实研究人员的直接评估。用户在提交科学问题后,会收到两个由模型生成并附有相关引用的详细答案,然后用户根据判断选择更优的答案。这些引用的文献均通过专门的ScholarQA检索流程获取。
SciArena已积累了来自自然科学、工程学、生命科学和社会科学四大领域102位研究人员的超过13,000份评估数据,涵盖概念阐述、文献检索等多个维度。
在当前的排名中,OpenAI的o3模型独占鳌头,领先于Claude-4-Opus和Gemini-2.5-Pro。而在开源模型领域,Deepseek-R1-0528表现突出,甚至超越了部分专有系统。研究团队特别指出,o3在自然科学和工程科学领域的表现尤为亮眼。研究人员还发现,用户在评估时更注重引用与陈述的匹配度,而非单纯引用数量。答案长度等因素对SciArena的影响相对较小,与Chatbot Arena或Search Arena等平台有所不同。
尽管取得了显著进展,但自动化评估仍面临挑战。为此,团队还推出了一项名为SciArena-eval的新基准测试,旨在测试语言模型判断其他模型答案的能力。然而,即便是表现最佳的模型,也只有约65%的时间与人类偏好一致,这反映出当前LLM在科学领域的评估系统尚存局限。
SciArena平台现已向公众开放,其代码、数据及SciArena-eval基准测试均以开源形式提供,旨在助力开发更符合研究人员在科学信息任务中需求的模型。
文章采集于互联网