最新中文大模型测评:百川智能 Baichuan 3 国内第一

4月30日,IT之家从百川大模官方微信官方账号获悉,国内大模评测机构SuperCLUE发布了《2024年4月中国大模标杆报告》,该报告选取了国内外32款代表性大模的4月版本,通过多维度的综合评测,对国内外大模的发展现状进行了观察和思考。报告显示,百川智能的百川3在国内大机型中排名第一,其他大机型如智普GLM-4、依桐钱文2.1、文心一言4.0、Moonshot (Kimi)紧随其后。从全球范围来看,GPT 4和克劳德3的外国同行得分更高。

SuperCLUE是国内通用的大规模模型综合评测基准,其前身是中文语言理解第三方评测基准(CLUE)。不同于传统的以选择题形式进行的考核,SuperCLUE纳入了开放式主观题的考核。通过多维度、多视角、多层次的评价体系和对话形式,模拟大模型的应用场景,真实有效地考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,深度考察大模型在真实多轮对话场景中的应用效果,全面评估大模型的情境、记忆和对话能力。

据介绍,SuperCLUE的测评由十项基本任务组成,包括逻辑推理、代码、语言理解、长文、角色扮演等。,而且题目是多轮开放式简答题。评估集中有2194个问题。

测试结果显示,百川3的文理科能力均衡。百川3以82分的成绩超越GPT-4-Turbo,在所有32款参与评测的国内外大型车型中排名第一。另一方面,在代表大模型智能的“逻辑推理”能力上,以68.60分超越Claude3-Opus,也击败多位国内大模型夺得第一。此外,百川3在计算、代码和工具使用能力上表现同样出色,位列国内前三。方正君逸a410拆机图解

cad2014安装教程writeline() 方法

您可能还喜欢...