AI Agent,为什么是AIGC最后的杀手锏?

AI Agent无疑是当前大模型最令人兴奋的开发线程,被称为“大模型的下一场战争”、“最后的杀手级产品”、“开启新工业革命时代的以Agent为中心”。11月7日,首个OpenAI开发者日引爆AI代理。OpenAI发布了AI Agent的早期形态产品GPTs,并推出了相应的制作工具GPT Builder。

用户只需与GPT生成器聊天并描述所需的GPT功能,即可生成专属GPT。专用GPT可以更适用于日常生活、特定任务、工作或家庭。为此,OpenAI还开放了大量新的API(包括visual、image DALL E3、voice)和新推出的Assistants API,让开发者可以更方便地开发自己的GPT。

比尔·盖茨(Bill Gates)最近发表文章明确指出,5年内,AI Agent将会普及,每个用户都将拥有一个专属的AI Agent。用户不需要因为功能需求不同而使用不同的app,他只需要用日常语言告诉他的代理人他想做什么。[1]

GPTs发布后一周内,已经累计超过17500。

那么,AI智能体到底是什么?为什么如此重要,行业关注度如此之高,甚至有学者断言“代理店在美国的发展将继续拉大中美差距”?[2]

什么是AI智能体?

在计算机和人工智能领域,agent一般翻译为“agent”,定义为在一定环境下体现自主性、反应性、社会性、预行动性、思辨性(审慎性)、认知性等一种或多种智能特征的软件或硬件实体。[3]

OpenAI将AI Agent定义为由大语言模型驱动,具有独立理解感知、规划、记忆和使用工具的能力,能够自动执行复杂任务的系统[4]。人工智能代理的基本框架如下:

基于LLM驱动的代理基本框架[5]

它有四个主要模块:记忆、计划、行动和使用工具:

(1)记忆。记忆模块负责存储信息,包括过去的交互,学到的知识,甚至临时的任务信息。对于一个智能体来说,有效的记忆机制可以确保它在面对新的或复杂的情况时能够调用过去的经验和知识。例如,具有记忆功能的聊天机器人可以记住用户的偏好或之前的对话,从而提供更加个性化和连贯的交流体验。

可以分为短时记忆和长时记忆:a .短时记忆,所有的语境学习都是建立在短时记忆的基础上的;b .长时记忆,它为代理人提供了长时间保留和回忆(无限)信息的能力,通常是通过使用外部向量数据库和快速检索,如某个行业领域沉淀的大量数据和知识。有了长时记忆,可以积累大量的数据,使得代理的可用性更加强大,具有行业深度、个性化、能力专业化的优势。

(2)策划。规划模块有两个阶段:事前规划和事后反思。在事前规划阶段,它涉及对未来行动的预测和决策。例如,当执行一项复杂的任务时,代理将大目标分解为更小的和可管理的子目标,以便可以高效地计划一系列步骤或行动,以实现预期的结果。在后反思阶段,智能体有能力检查和改进制定计划中的不足,反思错误的缺点并吸取教训加以改进,形成并加入长期记忆,帮助智能体避免错误,更新后期对世界的认知。

(3)工具使用。工具使用模块意味着代理可以使用外部资源或工具来执行任务。比如学习调用外部API获取模型权重缺失的额外信息,包括当前信息、代码执行能力、专有信息源的访问等。,以弥补LLM自身的弱点。例如,LLM的训练数据不是实时更新的。这时候可以用工具上网获取最新的信息,也可以用专门的软件分析大量的数据。

现在市场上有很多数字化和智能化的工具。代理使用工具比人类更方便、更高效。通过调用不同的API或工具,它们可以完成复杂的任务,输出高质量的结果。这种使用工具的方式也代表了代理的一个重要特点和优势。

(4)行动。动作模块是代理中实际执行决策或响应的部分。面对不同的任务,agent系统有一套完整的动作策略,可以选择决策时需要执行的动作,如记忆检索、推理、学习、编程等。

一般来说,这四个模块相互合作,使智能体能够在更广泛的背景下采取行动和做出决策,并以更智能和更有效的方式执行复杂的任务。[6]

AIAgent将带来更广泛的人机集成。

基于大模型的智能体不仅可以让每个人都拥有一个能力增强的专属智能助手,还可以改变人机合作的模式,带来更广泛的人机融合。自生成式人工智能智能革命以来,人机协作有三种模式:

(1)嵌入方式。用户通过语言与AI交流,利用提示设定目标,然后AI辅助用户实现这些目标,比如普通用户将提示输入生成式人工智能,创作小说、音乐作品、3D内容等等。在这种模式下,AI的角色相当于一个执行命令的工具,而人类扮演的是决策者和指挥者的角色。

(2)副驾驶模式。在这种模式下,人类和AI更像是合作伙伴,共同参与工作流,扮演各自的角色。人工智能参与到工作流程中,从提供建议到在流程的所有阶段提供协助。例如,在软件开发中,AI可以帮助程序员编写代码,检测错误或优化性能。人类和AI在这个过程中共同合作,实现能力互补。AI更像是一个有知识的伙伴,而不是一个简单的工具。

事实上,2021年,微软就在GitHub中首次引入了Copilot的概念。GitHub Copilot是一项帮助开发者编写代码的AI服务。2023年5月,在大机型的加持下,Copilot迎来了全面升级,推出了Dynamics 365 Copilot、微软365 Copilot和Power Platform Copilot,并提出了Copilot是一种全新的工作方式的概念。工作如此,生活也需要“副驾驶”。Mobvoi的创始人李志飞认为,大模特最好的工作就是做人类的“副驾驶”。

(3)代理模式。人类设定目标并提供必要的资源(如计算能力),然后AI独立承担大部分工作,最后人类监督过程并评估最终结果。在这种模式下,AI充分体现了智能体的交互性、自主性和适应性特征,接近独立行动者,而人类更多扮演监督者和评价者的角色。

人类与人工智能的三种合作方式[7]

从智能体的记忆、规划、行动和使用工具四个主要模块的功能分析,智能体模式无疑比嵌入式模式和副驾驶模式更高效,或将成为未来人机合作的主要模式。

基于agent的人机合作模式,每一个普通个体都有可能成为超级个体。超级个体拥有自己的AI团队和自动化的任务工作流,并基于Agent与其他超级个体建立更加智能和自动化的合作关系。现在业内有很多一人公司和超级个人的积极探索。

Github平台上有一些基于代理的自动化团队——gp team项目。GPTeam使用大模型来创建具有角色和功能的多个代理,并且多个代理合作以实现预定的目标。例如,Dev-GPT是一个多代理合作团队,具有自动开发和运维功能,包括产品经理代理、开发者代理和运维代理。这种多主体团队可以满足和支撑一个初创营销公司的正常运作,这是一个人的公司。

再比如NexusGPT[8],号称全球首个AI自由职业者平台。该平台整合了开源数据库中的各类AI原生数据,拥有800多个具有特定技能的AI智能体。在这个平台上,你可以找到不同领域的专家,比如设计师、顾问、销售代表等。雇主可以随时在这个平台上选择一个AI智能体,帮助他们完成各种任务。

AI Agent将改变软件的游戏规则,推动AI基础设施。

人工智能代理正在重新定义软件。比尔·盖茨认为,AI Agent将彻底颠覆软件行业,并将影响我们使用和编写软件的方式。[9]

AI Agent将把软件体系结构的范式从面向过程转向面向目标。现有的软件(包括APP)通过一系列预定义的指令、逻辑、规则和启发式算法来固定流程,从而满足用户的期望,即用户可以按照指令逻辑一步步实现目标。这种面向过程的软件架构具有很高的可靠性和确定性。然而,这种面向对象的架构只能应用于垂直领域,而不能应用于所有领域,因此如何平衡标准化和定制化成为SaaS行业面临的难题之一。

软件架构范例迁移[10]

AI Agent范式逐渐将原本由人类主导的功能开发转向以AI为主要驱动力。以大模型为技术基础设施,以agent为核心产品形态,传统软件预定义的指令、逻辑、规则和启发式算法的任务层次,已经演化为面向目标的Agent自生成。这样原来的架构只能解决有限范围的任务,未来的架构可以解决无限域的任务。[11]

在未来的软件生态中,不仅顶层是与每个人交互的Agent,整个行业的发展,无论是底层技术、商业模式、中间组件,甚至是人们的生活习惯和行为,都将围绕Agent发生变化,这就是以Agent为中心的时代的开启。[12]

RPA(机器人过程自动化)和APA(机构过程自动化)的比较[13]

以ChatDev智能软件开发平台为例。平台就像一个完全由AI Agents组成的软件开发公司,会有CEO、CTO、开发经理、产品经理、测试人员、主管等各种Agent角色。

用户只需要把明确的需求告诉CEO角色的代理,CEO会根据用户的需求组织整个软件开发过程。最终交付给用户的包括软件产品和整个开发过程中的代码,所有的过程都是自动化的[14]。这将使软件行业降低生产成本,提高定制能力,进入软件的“3D打印”时代。

智能体的前景和挑战

AI Agent是人工智能成为基础设施的重要驱动力。回顾技术发展的历史,技术的终点是成为基础设施,比如电,就像空气一样难以察觉,但也是必不可少的基础设施,比如云计算。

当然,这要经历以下三个阶段:创新发展阶段——新技术被发明和应用;推广应用阶段——随着技术的成熟,已广泛应用于各个领域,对社会经济产生深远影响;基础设施阶段——当技术变得无处不在时,它就成为了一种基础设施,成为了人们日常生活中不可或缺的一部分。

几乎所有人都同意人工智能将成为未来社会的基础设施。而代理正在推动人工智能的基础设施。这不仅是由于Agent软件生产成本低的优势,也是因为Agent可以适应不同的任务和环境,并学习和优化其性能,从而可以应用于广泛的领域,进而成为各种行业和社会活动的基础支撑。

人工智能代理应用概述[15]

在下一步中,代理可以同时在两个方向上迭代。一种是通过执行各种任务来协助人们的代理,侧重于工具属性;二是拟人方向的迭代,可以独立决策,具有长期记忆,具有一定的类人格特征,侧重拟人或超人属性。

从技术优化迭代和实现的角度来看,AI Agent的发展也面临一些瓶颈:

首先,我们也可以从OpenAI的GPTs中看出,LLM的复杂推理能力不够强,延迟过高,抑制了Agent应用的真正成熟。这也是行业内工程优化和技术研究突破的方向。

其次,多智能体的发展仍然面临很大困难。多智能体是一个非常复杂的学术研究方向,随着智能体开始向大众市场普及,它已经成为一个重要的技术现实问题。例如,斯坦福的虚拟城镇包含25个代理的多代理研究。但是小镇框架开源之后,根据开发者的测试,一个代理一天需要消耗20块钱的token,因为需要大量的思考内存和动作。这个价格比很多人类工作者都要高,需要Agent框架和LLM推理端的双重优化。

突破多智能体的发展困境是未来智能体社会建立的重要前提。多智能体合作可以形成技术社会系统的最高形式——智能体社会。智能体社会是复杂的、动态的、自组织的和自适应的,可以不断地合作、竞争和进化。在这个社会系统中,智能体可以根据目标和环境的变化执行复杂而灵活的任务,并在高层次和多维度上与人类和其他智能体进行交互和合作。代理社会不仅帮助人类探索和扩展物理和虚拟世界,而且增强和扩展人类的能力和经验。

同时,这些发展趋势表明AI Agent可能面临诸多挑战,如安全与隐私、伦理与责任、经济与社会就业影响等。

(1)安全性和隐私性是代理的关键特性,对于代理的稳定运行以及对用户和社会的保护非常重要。这两个因素直接影响了AI智能体的信任和控制。如果AI agent出现漏洞、攻击或数据泄露等问题,可能会对用户或社会造成损害。比如OpenAI的GPTs发布后不久,就出现了安全漏洞,导致用户上传的数据泄露。

(2)道德和责任是代理人的核心原则,决定了他们的价值观和目标,以及对用户和社会的尊重和保护。这些原则直接影响代理的可信度和可控性。如果代理表现出不公平、不透明或不可靠的问题,可能会导致用户或社会对技术的排斥。责任归属也是智能体的关键问题,人与智能体合作中责任归属不清或不公平也会带来严重后果。

(3)经济和社会就业影响。未来工作中的一个重要挑战是人类和智能体之间的竞争。比如AI自由职业者平台NexusGPT的出现,就是对传统自由职业者的冲击。在未来的社工协作中,代理人会越来越多,雇主可能会基于效率和效果,尽量减少人力投入。随着agent技术的成熟,我们必须提前思考这些技术发展对社会和个人职业生涯的长期影响。

以ChatGPT的发布为分水岭,全球自由职业者平台上写作/编辑从业者的数量和收入进入了悬崖式的下降轨道[16]

基准源

[2]https://MP . weixin . QQ . com/s/ewvw 83 gch _ xwmact7 dvv 5a

[3]全国科学技术术语审查委员会。计算机科学与技术术语(第三版)[M]。北京:科学出版社,2018年12月。

[4]从AI智能体的概念入手,翻译成“AI智能体”并不准确。“代理人”一词来源于拉丁语动词“agere”,意为“去做”或“去做”,涵盖了广泛的行为和活动。从这个词演变而来的名词形式“agents”直译为“actor”或“executor”,用来描述那些执行动作或有能力行动的实体。

[5]https://lilian Weng . github . io/posts/2023-06-23-agent

[6]https://lilian Weng . github . io/posts/2023-06-23-agent

[7]https://MP . weixin . QQ . com/s/aluyfd 6 bkok lo 6 xpjmyqnq

[8]https://nexus.snikpic.io/

[10]https://MP . weixin . QQ . com/s/x 27 swfezxmbufzeow 8 dlq

[11]https://MP . weixin . QQ . com/s/x 27 swfezxmbufzeow 8 dlq

[12]腾讯科技。大比例模型能力的竞争已经定型。https://mp.weixin.qq.com/s/v0fbbugrygcs7vox4ekrisg

[13]在过去,RPA只能替代简单机械的人工工作,一些复杂的流程仍然依赖于人工,这就存在两大问题:编写RPA工作流本身需要繁重的人工劳动,成本高;复杂任务非常灵活,通常涉及动态决策,很难将其固化为规则来表达。在APA范式中,Agent可以根据人的需求独立构建工作流,同时可以识别人的需求中需要动态决策的部分,自动安排到工作流中,并在工作流执行到这部分时接管工作流的执行,完成相应的复杂决策。

[14]https://baijiahao . Baidu . com/s?id=1782631006897855123。蜘蛛& ampfor=pc

[15]https://github . com/e2b-dev/awesome-ai-agents

[16]惠X,Reshef O,周l .生成性人工智能对就业的短期影响:来自在线劳动力市场的证据[J].可在SSRN 4527336,2023获得。

您可能还喜欢...