AI大模型“开闭源”论战再起,商业价值决定路线选择丨GAI进化论

21世纪经济报道记者张子桐上海报道。

近日,Meta发布了其最新版本的开源大模型Llama 3,在开源AI社区引起了一场“地震”。很多业内人士称之为“迄今为止最强大的开源LLM(大型语言模型)”。

然而,随着技术的变革,又是一轮“开源与闭源”的争议。

4月27日,美国最知名的AI创业者之一Arsenii Shatokhin在接受采访时直言不讳地表示,自己一个人运行开源大模型的效率低于闭源,他公司的客户中只有一两家有足够的资源来微调或运行700亿参数的Llama开源模型。

百度创始人李彦宏也持相同观点。近日,他在Create 2024百度AI开发者大会上直言:“开源模式会越来越落后。Llama 3比之前发布的任何开源模型都要大得多。对于他的客户来说,使用这种开源模式不如闭源商业模式高效。”

此言一出,立刻在AI界引起了一波争论。“开源的忠实信徒”周在公开场合表示,“我一直相信开源。至于网上一些名人的胡说八道,不要上当。他说开源比闭源好?连说这话的公司都是借助开源发展到今天的。”

对此,首席运营官、元圆科技创始合伙人王晓波在接受21世纪经济报道记者采访时表示,选择走通用人工智能道路的基座模式路线的核心特征是“赢者通吃”。

“这个行业可能有很多参与者,但最终可能只有少数能存活下来。采用开源大模型路线的公司,在业务发展速度上优势明显,但劣势是更容易被替代。”王小波说。cpu100度怎么解决

开源与闭源之争战与决电视剧演员表

自从OpenAI 空诞生以来,开源和闭源的选择一直是大模型领域的热门话题。OpenAI的GPT-4模型采用闭源模式,而微软则开放了WizardLM-2。在国内,百川智能和致远是开源的支持者,依桐钱文也有开源,而华为盘古大模坚决选择不开源。

纵观众多公司的不同选择,背后的出发点依然是商业价值的差异。

在李彦宏看来,闭源是有真正的商业模式的,是有可能赚钱的。只有赚钱,才能聚集计算能力和人才。相反,闭源模式在成本上更有优势。只要具备同样的能力,闭源模型的推理成本一定更低,响应速度一定更快。“闭源模式会在能力上持续领先,不是一时领先;开源模式不是众人拾柴火焰高的局面。这与传统的软件开源——比如Linux和Android——有很大的不同。”显卡在哪里看配置

此外,李彦宏提到,中国和美国最强的基础模型是闭源的。基础模型降维做出来的模型也更好,使得闭源在成本和效率上更有优势。对于AI创业者来说,核心竞争力不应该是模型本身,消耗资源太多,需要很长时间才能走出来。

随后,周向解释道,“我说开源好,不是针对李厂长,而是从产业发展的角度,开源和闭源。”

从长远来看,确实有越来越多的从业者开始警惕使用开源模式被替代的风险。

2023年5月,泄露的文件《我们没有护城河,OpenAI也没有》在SemiAnalysis网站上传播。其中,观点包括谷歌比开源社区更需要开源社区。作者指出,由不同开源模型组成的生态系统永远是OpenAI的潜在竞争对手,与开源AI竞争的结果必然是失败。

初创公司的选择

无论选择哪条路线,目前国内AI模型生态最重要的是找到合适的落地场景和商业化路径。

李彦宏在几天前的一次内部演讲中表示,一些模式创业公司的所谓“双轮驱动”并不是一个好的模式。既做模型又做应用,势必分散精力。创业公司的精力和资源是有限的。在资源有限的情况下,更重要的是专注于此,而不是搞所谓的“双轮驱动”。

在他看来,市场上有大量的模型,大的,小的,开源的,闭源的。如何在具体应用中使用这些模型的组合是有技巧的。这是创业者可以做的,可以提供价值增益的事情。

清华大学电子工程系教授、原宪科技创始人周博文也持类似观点。

近日,周博文在莫迪小鲜AI营销大脑(以下简称莫迪)发布现场表示,要想让人工智能快速落地,实现AGI,就要在保持普适性的基础上解决专业化问题。通识教育与专业教育融合的新框架,即交互式持续学习框架。通用大模型和专用小模型共同生成框架。大模型提供高阶推理能力,指导内容框架的生成,专业化的小模型填充知识,生成个性化内容。

“AGI的一般和特殊融合的概括能力不是算法,需要系统的设计和思考。因此,我和我的研究团队提出了一个新的架构,它在多个层面上依赖于AGI的道路,其中将包括基本的模型智能。这个基础模型是大模型智能,具有从一般到专业能力的迭代。在算法协作中,要完成通用化和专业化的结合,要有专业通用的体系,这是AGI的必由之路,要能够在场景中自主探索、迭代、强化学习。这三层相互作用。未来,AGI需要合作和智慧来实现。在三个模型的研究下,可以相互作用,不是简单的线性依赖,每一层的提升也是对另外两层的帮助。”周博文说。

同时,周博文表示,在基础模型的基础上,需要更多通用能力上的数据飞轮,包括专业能力上的数据增强,包括领域的深度检索,从通用能力到专业基础模型的增强,多功能专业模型的融合机制,包括快模型和慢模型的开发,以及学习和交付的能力。不同模型和不同专业的协作可以有效地检测出一个模型何时产生幻觉。据他介绍,目前,莫迪已经开放测试应用,预计5月下旬正式上线。

您可能还喜欢...