阿里巴巴开源 1100 亿参数 Qwen1.5-110B 模型

67194

IT之家4月27日消息阿里巴巴近日宣布,开源的Qwen1.5系列中的首款1000亿参数模型Qwen1.5-110b在基础能力评测中与Meta-Llama3-70B相当,在聊天评测中表现出色,包括MT-Bench和AlpacaEval 2.0。

IT之家主要内容概述:

据报道,Qwen1.5-110B与其他Qwen1.5型号相似,采用相同的变压器解码器架构。它包含组查询注意力(GQA),在模型推理中更有效。该模型支持32K令牌的上下文长度,并且它仍然是多语言的,支持英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语和阿拉伯语。

Ali Qwen1.5-110B模型与最近的SOTA语言模型Meta-Llama3-70B和Mixtral-8x22B进行了比较,结果如下:

上述结果表明,新的110B型至少在基本能力上与LLMA-3-70B型相当。在该模型中,阿里巴巴没有对预训练方法进行大的改变,因此他们认为与72B相比的性能提升主要来自于增加模型规模。

阿里还在MT-Bench和AlpacaEval 2.0上进行了聊天评测,结果如下:高通骁龙778g相当于麒麟多少

三星5080

阿里巴巴表示,与此前发布的72B模型相比,在两种聊天模型的基准测试中,110B的表现明显更好。评测结果的不断改进表明,即使后期训练方法没有大的改变,更强、更大规模的基础语言模型也可以带来更好的聊天模型。

最后,阿里表示,Qwen1.5-110B是Qwen1.5系列中最大的型号,也是该系列中第一个参数超过1000亿的型号。与最近发布的SOTA型号LLMA-3-70B相比,它的性能很好,而且明显优于72B型号。

您可能还喜欢...