零一万物回应大模型架构争议:结构设计基于GPT,借鉴行业公开成果

界面新闻记者|李静雅

一周前刚刚完成大模特出道的万物,今天正处于风口浪尖。

11月14日上午,在万项预训练模型Yi-34B的拥抱脸开源主页上,一位名为ehartford的国外开发者质疑该模型使用了Meta的大开源模型LLaMA的框架,只修改了两个张量的名称,即input_layernorm和post_attention_layernorm。所谓张量,是深度学习概念中的多维数组,其目的是创建更高维的矩阵和向量。

总之这个国外开发者认为李开复的Yi-34B其实是Meta开源模型LlaMa的重构,只是改了几个名字。

针对这位开发者的指责,一万件事回应界面新闻。一万件事说GPT是业界公认的成熟架构,Llama对GPT做了总结。大型R&D模型的结构设计以GPT成熟的结构为基础,并借鉴了业内顶尖水平的公开成果。因为大规模模型技术的发展还处于起步阶段,符合行业主流的结构更有利于整体的适应和未来的迭代。同时,基于团队对模型的理解和训练,我们做了大量的工作,也在不断探索模型结构的本质突破。

“模型结构只是模型训练的一部分。Yi开源模型在其他方面投入了大量的研发工作,如数据工程、训练方法、保姆技能、超参数设置、评价方法、对评价指标本质的理解深度、模型泛化能力原理的研究深度、业界顶尖的AI infra能力等。这些作品往往比基础结构发挥更大的作用和价值,这些也是大模型前期训练阶段万物的核心技术护城河。01万件事代表。

4个月前,李开复进入大模特创业领域。11月6日,他正式披露了自己的AI创业公司01万成立7个月以来的最新进展。Yi系列的两个大型号,包括34B和6B版本已经出来了,目前已经开放免费商业应用。据界面消息,目前万件物品的估值已经达到独角兽级别。

备受争议的Yi-34B是双语基础型号,有340亿个参数。它可以支持200K-K的超长上下文窗口,处理约40万个汉字的超长文本输入。它是目前世界上最长的上下文窗口,创下了杨的moon shoot.ai和的百川2-192K等大型模型的新纪录。

据悉,34B的大模型是李开复心目中基本模型的黄金尺寸,刚好达到浮现的门槛,但又不算太大,既满足了精度的要求,又对训练和推理的成本友好。

据万事说,在大量训练实验的过程中,由于实验执行的需要,对代码进行了重命名,并且尊重开源社区的反馈,更新了代码,更好的融入了Transformer生态。

一般来说,开源并不意味着没有版权。任何第三方都应该遵循其开源许可协议。在法律层面,大模型的拥有者可以通过专利、商标、版权来保护自己的知识产权。

7月中下旬,科技巨头Meta开放了源码Llama 2。Llama2官网的相关许可和限制声明显示“除非你的产品月活跃用户超过7亿,否则该型号可以用于商业用途。你需要填写一张表格才能获得访问权限,这张表格还会让你从HuggingFace的网站上下载模型。”但是,李开复的Yi-34B模型的开源许可中并没有提到骆马的名字。

您可能还喜欢...