最新中文大模型测评：百川智能 Baichuan 3 国内第一

由 pu · 2024年5月1日

4月30日，IT之家从百川大模官方微信官方账号获悉，国内大模评测机构SuperCLUE发布了《2024年4月中国大模标杆报告》，该报告选取了国内外32款代表性大模的4月版本，通过多维度的综合评测，对国内外大模的发展现状进行了观察和思考。报告显示，百川智能的百川3在国内大机型中排名第一，其他大机型如智普GLM-4、依桐钱文2.1、文心一言4.0、Moonshot (Kimi)紧随其后。从全球范围来看，GPT 4和克劳德3的外国同行得分更高。

SuperCLUE是国内通用的大规模模型综合评测基准，其前身是中文语言理解第三方评测基准(CLUE)。不同于传统的以选择题形式进行的考核，SuperCLUE纳入了开放式主观题的考核。通过多维度、多视角、多层次的评价体系和对话形式，模拟大模型的应用场景，真实有效地考察模型生成能力。同时，SuperCLUE通过构建多轮对话场景，深度考察大模型在真实多轮对话场景中的应用效果，全面评估大模型的情境、记忆和对话能力。

据介绍，SuperCLUE的测评由十项基本任务组成，包括逻辑推理、代码、语言理解、长文、角色扮演等。，而且题目是多轮开放式简答题。评估集中有2194个问题。

测试结果显示，百川3的文理科能力均衡。百川3以82分的成绩超越GPT-4-Turbo，在所有32款参与评测的国内外大型车型中排名第一。另一方面，在代表大模型智能的“逻辑推理”能力上，以68.60分超越Claude3-Opus，也击败多位国内大模型夺得第一。此外，百川3在计算、代码和工具使用能力上表现同样出色，位列国内前三。方正君逸a410拆机图解

cad2014安装教程writeline() 方法

最新中文大模型测评：百川智能 Baichuan 3 国内第一

您可能还喜欢...

汇丰中国成为首批推出数字人民币业务的外资银行

汽车之家车报价大全2022(汽车之家车报价大全2023年)

深圳市场监管局：希望华为、腾讯、比亚迪等龙头企业总结分享海外维权经验