零一万物回应大模型架构争议：结构设计基于GPT，借鉴行业公开成果-科技让生活更美好

界面新闻记者|李静雅

一周前刚刚完成大模特出道的万物，今天正处于风口浪尖。

11月14日上午，在万项预训练模型Yi-34B的拥抱脸开源主页上，一位名为ehartford的国外开发者质疑该模型使用了Meta的大开源模型LLaMA的框架，只修改了两个张量的名称，即input_layernorm和post_attention_layernorm。所谓张量，是深度学习概念中的多维数组，其目的是创建更高维的矩阵和向量。

总之这个国外开发者认为李开复的Yi-34B其实是Meta开源模型LlaMa的重构，只是改了几个名字。

针对这位开发者的指责，一万件事回应界面新闻。一万件事说GPT是业界公认的成熟架构，Llama对GPT做了总结。大型R&D模型的结构设计以GPT成熟的结构为基础，并借鉴了业内顶尖水平的公开成果。因为大规模模型技术的发展还处于起步阶段，符合行业主流的结构更有利于整体的适应和未来的迭代。同时，基于团队对模型的理解和训练，我们做了大量的工作，也在不断探索模型结构的本质突破。

“模型结构只是模型训练的一部分。Yi开源模型在其他方面投入了大量的研发工作，如数据工程、训练方法、保姆技能、超参数设置、评价方法、对评价指标本质的理解深度、模型泛化能力原理的研究深度、业界顶尖的AI infra能力等。这些作品往往比基础结构发挥更大的作用和价值，这些也是大模型前期训练阶段万物的核心技术护城河。01万件事代表。

4个月前，李开复进入大模特创业领域。11月6日，他正式披露了自己的AI创业公司01万成立7个月以来的最新进展。Yi系列的两个大型号，包括34B和6B版本已经出来了，目前已经开放免费商业应用。据界面消息，目前万件物品的估值已经达到独角兽级别。

备受争议的Yi-34B是双语基础型号，有340亿个参数。它可以支持200K-K的超长上下文窗口，处理约40万个汉字的超长文本输入。它是目前世界上最长的上下文窗口，创下了杨的moon shoot.ai和的百川2-192K等大型模型的新纪录。

据悉，34B的大模型是李开复心目中基本模型的黄金尺寸，刚好达到浮现的门槛，但又不算太大，既满足了精度的要求，又对训练和推理的成本友好。

据万事说，在大量训练实验的过程中，由于实验执行的需要，对代码进行了重命名，并且尊重开源社区的反馈，更新了代码，更好的融入了Transformer生态。

一般来说，开源并不意味着没有版权。任何第三方都应该遵循其开源许可协议。在法律层面，大模型的拥有者可以通过专利、商标、版权来保护自己的知识产权。

7月中下旬，科技巨头Meta开放了源码Llama 2。Llama2官网的相关许可和限制声明显示“除非你的产品月活跃用户超过7亿，否则该型号可以用于商业用途。你需要填写一张表格才能获得访问权限，这张表格还会让你从HuggingFace的网站上下载模型。”但是，李开复的Yi-34B模型的开源许可中并没有提到骆马的名字。

未经允许不得转载：科技让生活更美好 » 零一万物回应大模型架构争议：结构设计基于GPT，借鉴行业公开成果

零一万物回应大模型架构争议：结构设计基于GPT，借鉴行业公开成果

作者：pu

相关推荐