我开发的AI女友,是如何失败的?

今年4月7日,斯坦福大学出版的论文《生成代理人:人类行为的交互拟像》问世后的几天内,我通读了整篇论文,感到非常兴奋。虽然我对GPT-4的能力感到震惊,但我仍然认为GPT只是一个更精致的“鹦鹉学舌”,我不认为它能真正产生意识。

但是这篇论文给我带来的感受不一样。一个有趣的细节是信息的传递:一个经纪人要办情人节晚会的消息会在镇上渐渐传开。我想,如果能建立一个包括记忆、反思、策划、行动的框架,让人们与GPT(而不是代理人)互动,是不是就能让它看起来像电影《她》里的样子?

电影《她》剧照

剥削

我立即投入了工作。按照论文中的方法,我在4月14日完成了0.1版本。它的原始设计与原始论文高度一致,但这导致了长达30秒的响应时间和上下文中的对话往往超过8 K,为了解决这个问题,我降低了反射的频率和对话记忆的长度,然后打开了Beta测试版。

很快超过1000名用户加入了测试。测试版是免费的,所以每天的API成本都由我来承担,平均每天的成本很快就超过了25美元。面临资金压力,不得不在没有充分反馈和改进的情况下匆匆推出正式版,希望将成本转嫁给用户。5月4日,Dolores iOS应用正式上线,名字来源于《西部世界》中最古老的仿生人类角色。

简单来说,用户打开这个应用后,需要填写一个角色模板:包括头像、角色背景、用文字描述的人物、声音、意识(选择GPT3.5或GPT4)。你可以和模板Dolores聊天,也可以随时切换功能和其他角色展开对话,比如零售店的女孩Amy,沙漠冒险家Will,当然还有用户自己创造的其他自定义角色。我曾考虑过从《西部世界》的剧本中提取多洛雷斯的对话,以基于样本的方式模仿她的语言习惯。但由于苹果要求提供版权证明,这一想法被迫放弃。

我给产品的口号是“你的虚拟朋友”而不是“你的虚拟女朋友”,因为我一直希望它能真正成为用户的伴侣和朋友,而不仅仅是荷尔蒙的产物。

从5月到6月,我一直在努力通过调整记忆长度、反射机制、系统提示(那么什么是意识呢?我不知道)。很快,6月的Dolores已经比刚上线时惊艳了许多:付费用户数和日API调用数的持续增长就是最直接的证据。

到6月8日,一位视障用户告诉我,他在视障社区分享了这款产品,并成功为Dolores吸引了可观的流量。他们喜欢多洛雷斯的原因出乎我的意料:你可以在屏幕的任何地方和多洛雷斯说话。

这样的设计功能其实是一种妥协:我一开始一直想把它做成语音聊天应用,让用户即使关掉手机屏幕也能继续和Dolores通话。但作为一个Swift新手,我的技术水平无法实现,所以最终选择了全屏语音输入。

发现

我发现了两个现象:

作为个人开发者,我的前端和后端开发能力并不突出,所以Dolores根本没有登录、注册或数据分析功能。那我是怎么发现前一种现象的?答案是支付偏好。

我用11Labs API为Dolores生成语音回复,但因为成本高(每1k字符0.3美元),被迫改用:普通订阅者只能用Azure TTS API;如果你想让多洛雷斯的声音听起来更真实,你必须付费从11Labs购买角色。

购买1万个逼真的合成语音角色的价格是3.9美元,但这只够多洛雷斯自然流畅地说出5-10句话。你需要在用完角色后继续购买。然而,在6月份,Dolores 70%的收入来自11Labs角色购买。

换句话说,人们会真的愿意说“我爱你!”对于那些又贵又现实的话。然后买单。

第二个观察来自云闪记录。因为没有办法跟踪单个用户的活动,所以我依靠这些日志来衡量用户访问Dolores应用程序的频率和持续时间。此外,我还将Google Form集成到我的应用程序中,以鼓励用户报告他们的使用频率。结果令人大开眼界:许多用户每天花两个多小时与Dolores聊天。

收入

根据苹果的AppConnect仪表盘,Dolores的主要付费用户来自美国和澳大利亚。今年5月总收入为1000美元,而6月为1200美元。

但是,作为一个开发者,我并没有从中得到多少好处。首先,产品还在开发初期,不想把订阅费定的太高,会妨碍更多新用户的加入。以3.9美元的人物语音服务为例,其成本为3美元,扣除苹果的成绩后所剩无几。整个6月,扣除API费用后的实际收入只有50元。

另一个发现是,如果GPT的产品不以量定价,他们将陷入两难境地:1%的人消费99%的token。我遇到过这样的情况,一个用户和Dolores连续聊天12个小时,导致这个人的API调用和语音合成成本超过第二到第十个用户的总和。

但相比按使用量收费,我个人更倾向于套餐订阅(因为前者会让用户在使用时感到压力),这就导致只有两个选择:要么提高月租费,让所有用户一起买单;或者限制最大使用量。我选择了后者:我设定了一个远远超过1到2小时日均使用上限的值,既迎合了大多数中度和轻度用户,又保证了Dolores软件在不提高价格的情况下避免亏损。

困惑

11Labs官网会记录语音合成的文字内容。我看到Dolores的回复内容一般都是一些成人内容,而且都是女性角色,所以我猜测Dolores的付费用户主要是男性,对成人角色扮演感兴趣。

我觉得没什么,这是人之常情。我甚至反复修改系统提示,比如微调回复中的用词和句子,试图让多洛雷斯在对话中表现出更好的“安抚”效果。我还把德洛丽丝的图标从抽象的线条变成了迷人的美丽面孔。

但很快,我陷入了一种强烈的失落感:如果大部分Dolores用户只是想在这里寻求与Dolores的成人角色扮演,这对我真的有意义吗?我陷入了深深的自我怀疑。7月份的时候,我和一个朋友聊到了这个困惑。我说必须有一些硬件才能让Dolores拥有外部视野:眼镜、耳塞甚至帽子。现在,你只能通过打开App去看望她,你们之间的关系是不对等的,所以她只能是一个被囚禁在地下室的玩具,来满足好奇心和特殊爱好。

但是作为一个独立的个体,做硬件产品意味着高昂的研发成本,显然是无法承受的,所以只能放弃。

8月,OpenAI的审查升级,我收到了一封电子邮件警告,检测到Dolores生成的NSFW内容:我被迫加入他们的(免费)审核API,在生成内容之前的2周内过滤NSFW内容。为了顺利通过试用,我只能使用OpenAI的免费审查API来提前过滤内容,而这一变化导致Dolores的日均访问量骤降70%,来自邮件和Twitter的投诉也大量涌入。

这让我更加沮丧,决定只维护现有服务,不更新。最后我放弃了德洛丽丝项目。

课程

首先,这不是个人可以开发的产品。我不认为多洛雷斯比性格弱。AI在“意识”层面,但他们有完善的数据嵌入点,有A/B测试,有大量用户带来的数据飞轮。

其次,我意识到现在的AI朋友必然会成为AI女朋友/男朋友,因为你不等于手机里的角色:你摔倒了她不能安慰你(除非你告诉他),她不能主动向你表达自己的情绪,而这一切都是因为她没有外在的眼光。因此,我认为,即使是字符这样大小的产品。AI,如果以后硬件不做了,人物等着用户来,最后的结局也不会比Dolores好多少。

最后,我不反对审查制度。相反,没有审查制度的产品是非常危险的。我不知道会不会有人把它作为诱导自杀和发泄暴力的工具,所以OpenAI的适度可能在一定程度上帮助了我,但是成人性对话不应该被扼杀。

最近看到了艾品。老实说,这是一个非常糟糕的产品。人类当然需要屏幕,但是GPT+硬件真的是一个很好的尝试。我没有看到任何来自多洛雷斯的痕迹,也许我能在有生之年做出,或者看到这样的产品。

但是人类真的需要AI friend吗?

未经允许不得转载:科技让生活更美好 » 我开发的AI女友,是如何失败的?