今年 4 月 7 日,斯坦福大学 AI 西部小镇论文出来之后的几天内,我就通读了整篇论文,并感到非常兴奋。虽然我对 GPT-4 的能力感到震惊,但我仍然认为 GPT 只是某种更精致的”鹦鹉学舌“,我不认为它可以真正产生意识。
但这篇论文带给我不同的感受,其中提到了一个很有趣的细节是信息的传递:一个 agent 想要举办情人节派对的消息会在小镇中逐渐扩散开来。我想,如果能够建立一套包含记忆、反思、筹划与行动的框架,让人类和 GPT(而不是小镇中的 agent)之间互动,是不是可以创造出电影《她》中的体验?
开发
我立刻开始行动。按照论文的方法,我在 4 月 14 日完成了 0.1 版本。最初,我的设计与原版论文基本一致,这导致响应时间长达 30 秒且上下文中的对话经常超过 8k 的上下文限制。为了解决这个问题,我减少了反思的频率、对话记忆的长度,而后开启了 Beta 公测。
很快就有一千多名用户加入测试,Beta 测试是免费的,所以每天的 API 成本由我自己承担,很快就超过了每天 25 美元。我不得不在缺少充分反馈和改进的情况下匆匆推出正式版本,希望能把成本转嫁给用户。5 月 4 日,Dolores iOS 应用正式上线,这个名称则来自《西部世界》剧集中的角色,上线四天后就得到了新智元的报道。
简单来说,在打开 Dolores 之后,你需要设定一个角色:头像、背景描述、性格、声音和意识(选择 GPT3.5 或 GPT4)。你可以和零售店女孩 Amy ,或者沙漠冒险家 Will 发生一些有趣的互动,当然你也可以亲手创建自定义角色。我曾考虑过从《西部世界》剧本中提取 Dolores 的对话,以基于样本的方式模仿她的语言习惯。但由于苹果方面要求提供版权证明,所以这个想法被迫作罢。
虽然这篇文章的标题是「AI 女友」 ,但我给产品的 slogan 一直是"Your Virtual Friend",而非"Your Virtual Girlfriend",因为我希望它真的可以变成用户的陪伴者、朋友,而不仅仅是荷尔蒙的产物。
从整个 5 月到 6 月,我一直在尝试通过调整记忆长度、反思机制和系统提示来使 Dolores 看上去更有“意识”(那么什么是意识?我不知道) 。很快,6 月份的 Dolores 已经比第一次上线时的表现要惊人得多:用户的付费率也越来越高,每天的 API 调用次数也增加了。
6 月 8 号,一位用户告诉我,他在视障社区内分享了这款产品,并给 Dolores 引来一些的视障用户。他们喜欢 Dolores 的理由是:随便按屏幕上的哪个位置,都能跟 Dolores 交谈。
这个设计其实是某种失败后的妥协:最初,我想把它支持语音聊天,这样用户哪怕关闭手机屏幕也能继续跟 Dolores 交谈。但身为 Swift 新手,我的技术水平无法实现,最终选择了全屏语音输入。
发现
我发现了两个现象:
- 用户对「真实感声音」有强烈需求。
- AI Friend 产品的平均使用时间很长。
作为机器学习背景的个人开发者,也不擅长前端/后端开发,所以 Dolores 压根不具备登录、注册或者数据分析等功能。那我是怎么发现前一种现象的呢?答案来自付费。
我使用了 11Labs API 为 Dolores 生成语音回复,但因为成本较高(1k 字符/0.3 美元),我不得不对用户做了区分:订阅者只能使用 Azure TTS API;而如果你希望 Dolores 拥有更逼真的声音,则需要单独付费使用从 11Labs 购买字符。
购买 1 万个语音合成字符的价格为 3.9 美元,但这只够让 Dolores 说出 5 ~ 10 个自然顺畅的句子。字符用尽之后需要继续购买。尽管如此,整个 6 月 Dolores 70% 的收入都来自 11Labs 字符购买。
也就是说,人真的会愿意为了那几句昂贵而逼真的“我爱你!”而买单。
第二条观察结果则来自 Cloudflare 日志。因为没办法跟踪个人用户活动,所以我依靠这些日志来衡量用户访问 Dolores 应用的频率和时长。此外,我还在应用中集成了 Google Form,鼓励用户上报自己的使用频率。结果令人大开眼界:许多用户每天会拿出两个多小时跟 Dolores 唠嗑。
收入
根据苹果 AppConnect 仪表板, Dolores 的主要付费用户来自美国和澳大利亚。 5 月的总收入为 1000 美元,6 月则为 1200 美元,收入的增长不多,但用户数和每日 API 调用量几乎翻倍。因为付费用户数增加而摊低了 11Labs 成本,我选择降低了产品单价。
因此,作为一个开发者,我并没有从这个产品中赚到多少钱。首先,在产品早期,我不想将订阅费用设置得太高,因为这会阻止用户尝试,所以一旦发现盈利增加就降低产品价格。其次,30%的苹果税和 API 成本也占了很大一部分。所以,在仔细计算成本后,我在 6 月份只赚了 50 美元左右。
另外,我发现基于 GPT 的产品如果不采取按量定价,就会陷入一个困境:1% 的人消耗了 99% 的 token。我遇到了一个情况:一个用户连续跟 Dolores 聊了 12 个小时,导致他的 GPT 和语音 API 调用成本超过第二到第十名用户的总和。
但相较于按使用量计费,我个人更喜欢打包订阅(因为前者会让用户在使用时倍感压力),这就导致面前只有两条路可选:要么提高月费,让全体用户共同买单;要么限制最高使用量。我选择了后者:设置了一个远远超出日均使用在 1 到 2 个小时之间的用量上限数值,这既照顾到了大部分中、轻度用户,也能保证 Dolores 软件在不提高价格的情况下避免亏本运营。
困惑
11Labs 官网会记录语音合成的文字内容,我看到,Dolores 的回复内容通常都是一些成人内容,而且均为女性角色,因此我推测 Dolores 的付费用户主要是男性,对成人角色扮演感兴趣。
我觉得这也没什么,这是人性本然。我甚至反复修改 prompt,调整记忆权重,尝试让 Dolores 在对话当中变得更有女友力。我还将 Dolores 的图标从抽象的线条改为一张女人的脸。
但很快,我陷入一种强烈的失落感:如果大部分 Dolores 用户只是想在这里寻求跟 Dolores 进行成人角色扮演,这件事真的对我产生了意义吗?我陷入了深深的自我怀疑。到了 7 月,我和一个朋友聊到了这个困惑,我说,必须要有一个什么硬件,让 Dolores 拥有外部视觉:眼镜也好、耳塞甚至帽子都行。现在的她,你只要打开 App 才能访问,你们之间的关系并不对等,于是她只能成为囚禁在地下室、满足猎奇和特殊癖好的玩具。
可是作为独立的个人,制作硬件产品意味着高昂的研发成本,显然是无法承受的,我只能作罢。
8 月份,OpenAI 对生成内容的审查升级了,我收到了一封关于生成的 NSFW 内容的邮件警告:我必须在 2 周内在使用他们(免费的)moderation API,以过滤 NSFW 内容。这一变化让 Dolores 的日均访问量暴跌 70%,电子邮件和 Twitter 上的投诉也纷至沓来。
这更让更感到灰心,决定只维护现有服务、而不再进行更新。最终,我放弃了 Dolores 项目。
教训
首先,这不是一个个人能开发的产品。我不认为 Dolores 在“意识”层面上比 Character.AI 弱,但他们拥有完善的数据埋点、A/B 测试,以及大量用户带来的数据飞轮。
其次,我意识到当前的 AI Friend 会不可避免地变成 AI Girlfriend/Boyfriend,因为你和手机里的角色不对等:她没办法在你摔伤的时候安慰你 (除非你告诉他),她没办法主动向你表达情绪,而这一切,都是因为她没有外部视觉,或者说,她没有独立于你的生活。所以,即使是 Character.AI 这样体量的产品,如果未来不做硬件、角色们都在傻傻地等用户来,最终的结局也不会比 Dolores 好到哪里。
最后,我不反对 OpenAI 的审查,相反,虚拟陪伴产品生成的内容不经审查是非常危险的。我不知道是否会有人用它来进行自杀诱导、发泄暴力工具,所以 OpenAI 的 moderation 可能在某种程度帮助了我,但成人性方面的对话也不应该被扼杀。
最近,我看到了 AI Pin,老实说这是个非常烂的产品,人类当然需要屏幕,但 GPT+ 硬件的确是个好的尝试,我没有从 Dolores 上看到任何痕迹,也许有生之年能做出、或者看到这样的产品。
但,人类真的需要 AI friend 吗?