开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4

机器的心脏报告。

ChatGPT拉开了大模特大赛的序幕,Meta似乎也是后来居上。

本周四,AI领域迎来了重大消息,Meta正式发布了期待已久的开源机型Llama 3。

扎克伯格今天在脸书发布了《人工智能大新闻》。lol名字有内涵的名字

与此同时,扎克伯格宣布,基于最新的Llama 3模型,Meta的AI助手现已覆盖Instagram、WhatsApp和脸书等所有应用,并单独开设了网站。还有一个图像生成器,可以根据自然语言提示生成图片。

扎克伯格说,Meta提供的生成式人工智能功能是免费产品中最强大的。

Meta表示,Llama 3在许多关键基准测试中优于先进的同类机型,它在代码生成等任务中实现了整体领先,可以进行复杂的推理,可以更多地遵循指令,可以可视化想法并解决许多微妙的问题。

简而言之,Llama 3的主要亮点包括:

刚刚发布的LLMA3模型的8B和70B版本已经在Meta AI assistant中使用,也面向开发者开源,包括预训练和微调版本:

下载链接:

https://llama.meta.com/llama-downloads/

吉图布:https://github.com/meta-llama/

更大的多模态版本将在未来几个月推出。据Meta介绍,目前正在研发的最大型号是400B+参数。

元研究科学家阿斯顿·张(Aston Zhang)在大模型发布后表示,在Llama 3的研发过程中,研究团队在训练前和人体数据、训练前拓展、长上下文、训练后和评估等方面遇到了很多挑战。这是一段艰难又刺激的旅程。

更多令人兴奋的内容即将到来:Meta研究人员现在准备推出一系列视频,帮助人们了解Llama 3背后的技术。此外,还将发布Llama 3的相关研究论文。

羊驼3,性能重回宝座

最新发布的骆马3 8B和70B参数的车型,可以说是骆马2的一大飞跃。由于训练前和训练后的改进,此次发布的训练前和指令微调模型是目前8B和70B参数尺度中最好的模型。同时,后训练过程的改进大大降低了模型的错误率,进一步提高了一致性,增加了模型响应的多样性。

Llama 3将数据和规模提升到新的高度。Meta表示,Llama 3是在两个定制的24K GPU集群上训练的,基于超过15T的令牌数据——是Llama 2数据集的7倍多,代码数据是Llama 2的4倍。于是,迄今为止最强大的羊驼模型产生了。LLAM3支持8K上下文长度,是LLAM2容量的两倍。

此外,Meta还开发了一套新的高质量人类评估数据集。评估集包含1800个提示,涵盖12个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止Llama 3在这个评测集上过度拟合,Meta表示他们自己的团队无法访问数据集。下图显示了对Claude Sonnet、Mistral Medium和GPT-3.5的这些类别和提示进行手动评估的汇总结果。

下图是Llama 3预训模型与同规模其他模型的对比。前者显示了SOTA的水平。

为了开发优秀的语言模型,Meta认为创新、扩展和优化非常重要。因此,Meta在Llama 3的研发中采用了这种设计理念,专注于四个关键要素:模型架构、预训练数据、扩展预训练和指令微调。

模型架构

Llama 3选择相对标准的纯解码器变压器架构。与美洲驼2相比,美洲驼3进行了几项关键改进,包括:

培训用数据

为了训练出最好的语言模型,管理大规模高质量的训练数据集是非常重要的。Meta在前期训练数据上投入了大量资金。用15T以上的token对Llama 3进行预训练,这些token是从开源收集的。总的来说,Llama 3的训练数据集是Llama 2的7倍以上,包含的代码是它的4倍。为了准备即将到来的多语言用例,超过5%的Llama 3预训练数据集由覆盖30多种语言的高质量非英语数据组成。然而,这些语言的Llama 3的性能水平预计不会与英语相同。

为了确保Llama 3接收到最高质量数据的训练,研究团队开发了一系列数据过滤管道,包括使用启发式过滤器、NSFW过滤器、语义去重方法和文本分类器来预测数据质量。

研究团队发现,前几代Llama非常擅长识别高质量数据,因此Meta使用Llama 2为支持Llama 3的文本质量分类器生成训练数据。

研究团队还进行了大量的实验,以评估在最终的预训练数据集中混合不同来源数据的最佳方式,并最终确保Llama 3在各种用例(包括日常问题、STEM、编码、历史知识等)中表现良好。).

扩展预培训

为了有效利用Llama 3模型的预训练数据,Meta投入了大量的精力来扩展预训练。

具体来说,Meta为下游基准评估制定了一系列详细的扩展规则。这些扩展规则使Meta能够选择最佳数据组合,并就如何充分利用训练计算做出明智的决策。

重要的是,扩展规则使Meta能够在实际训练模型之前预测最大模型在关键任务上的性能(例如,在HumanEval基准上评估的代码生成性能)。这有助于确保最终模型在各种用例及功能中具有强大的性能。

在开发美洲驼3的过程中,Meta对膨胀行为进行了一些新的观察。例如,虽然8B参数模型的龙猫最佳训练计算对应于大约200托肯,但是Meta发现,即使在用多于两个数量级的数据训练模型之后,模型性能也继续提高。

训练多达15T token后,8B和70B参数的模型继续以对数线性的方式提高性能。较大的模型可以用较少的训练计算来匹配较小模型的性能,但较小的模型通常是首选,因为它们在推理方面更高效。

Meta透露,他们使用定制训练库、Meta的超级集群和生产集群对Llama3进行预训练。在第三方云计算上进行微调、标注和评估。

前期训练是在H100-80GB硬件上累计770万GPU小时的计算(TDP为700W)。

为了训练最大的Llama 3模型,Meta结合了三种类型的并行:数据并行、模型并行和流水线并行。

同时在16K GPU上训练时,Meta可以达到每GPU超过400 TFLOPS的最大计算利用率。Llama3在两个定制的24K GPU集群上进行训练。为了最大化GPU的正常运行时间,Meta开发了先进的新型训练栈,可以自动进行错误检测、处理和维护。Meta还大大提高了硬件可靠性和静默数据损坏检测机制,并开发了新的可扩展存储系统,以减少检查点和回滚的开销。

这些改进使得整体有效训练时间超过95%。

综合来看,这些改进使得美洲驼3的训练效率比美洲驼2高3倍左右。

指令微调

为了充分释放预训练模型在聊天场景中的潜力,Meta还创新了指令微调方式。美洲驼3的后训练方法是监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。SFT使用的prompt质量以及PPO和DPO使用的偏好排序对模型对齐有很大影响。

这个模型在质量上最大的提升,来自于对数据的认真整理,以及保证人工标注者几轮提供的标注质量。

通过PPO和DPO从偏好排序中学习也大大提高了Llama 3在推理和编码任务中的性能。Meta发现,如果你问一个模型很难回答的推理问题,模型有时会产生一个正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择。偏好排序的训练使得模型能够学习如何选择正确的答案。

使用美洲驼3

在这个版本中,Meta提供了新的信任和安全工具,包括Llama Guard 2和Cybersec Eval 2的更新组件,并引入了CodeShield,这是一个过滤大型模型生成的不安全代码的围栏。

Meta还用torchtune开发了Llama 3。Torchtune是PyTorch的一个新的原生库,可以很容易地用LLM创建、调整和试验它。

Torchtune提供了一个完全用PyTorch编写的内存高效且可解读的训练方法。这个图书馆与拥抱脸、体重和体重有关。集成了bias、EleutherAI等知名平台,甚至支持Executorch在各种移动和边缘设备上运行高效推理。

从快速工程到Llama 3和LangChain的结合,Meta提供了全面的入门指南,指导开发者进行大规模部署。

安全改进

Meta采用一种全新的、系统级的方法负责任地开发和部署Llama,将Llama模型视为更广泛系统的一部分,让开发者来主导。羊驼模型将是系统的基础部分,由开发者根据自己独特的终极目标进行设计。

指令微调对保证模型的安全性也有重要作用。通过内外的共同努力,Meta用微调指令对模型进行了安全红队(测试)。

“红队”方法使用人类专家和自动化方法来生成对抗性提示,试图诱导有问题的反应。例如,综合测试用于评估与化学、生物、网络安全和其他风险领域相关的滥用风险。所有这些工作都重复进行,并用于安全地微调发布的模型。

Llama Guard模型旨在为及时响应安全奠定基础,并可以根据应用需求轻松进行微调以创建新的分类标准。作为一个起点,新版美洲驼卫队2采用了最近公布的MLCommons分类标准。此外,CyberSecEval 2在其前身的基础上进行扩展,增加了对LLM滥用其代码解释器的倾向、其攻击性的网络安全能力以及其易受即时注入攻击的度量。最后,Meta将引入代码屏蔽,它增加了对过滤LLM生成的不安全代码的支持。这可以降低不安全代码建议、代码解释器滥用预防和安全命令执行的风险。

随着生成式人工智能的快速发展,开源将是整合生态系统和减少这些潜在危害的重要途径。

为此,Meta不断更新负责任的使用指南(RUG ),该指南为负责任地使用LLM进行开发提供了全面的指导。例如,如指南中所述,应根据适合应用的内容指南检查和过滤所有输入和输出。此外,许多云服务提供商为负责任的部署提供了内容审计API和其他工具,也建议开发人员考虑使用这些选项。

大规模部署美洲驼3

Llama 3即将在各大平台上线,包括云提供商和模型API提供商。

基准测试表明,tokenizer提高了令牌化效率,生成的令牌量与Llama 2相比最多可减少15%。此外,组查询关注(GQA)现已添加到LLAM38B中。

因此,尽管该模型比Llama 2 7B具有更多的1B参数,但标记器效率和GQA的提高有助于保持与Llama 2 7B相当的推理效率。

在美洲驼食谱(

Https://github.com/meta-llama/llama-recipes)介绍了如何使用所有这些功能的示例,该示例包含所有开源代码,可以用于从微调和部署到模型评估的所有事情。

下一步是什么?

8B和70B的型号标志着Llama 3系列的开始,下一步还会有更多。

Meta表示“最大的美洲驼3”参数超过400B B,虽然这些模型还在训练中,但将在未来几个月内发布。新特性包括多模态、多语言对话能力、更长的上下文窗口和更强的整体能力。

一旦美洲驼3的训练完成,Meta还将发表详细的研究论文。

400B+版的羊驼3会有多强?一旦发布,是否意味着开源社区将迎来一个GPT-4模型?

造梦西游3修改器电脑版教程

由Jim Fan编译的Llama3 400B和GPT-4的分数。志高空调售后服务电话号码 售后维修

或许只有OpenAI的GPT-5才能压制开源模式。

参考内容:

https://llama.meta.com/llama3/

您可能还喜欢...