一个失败的AI女友产品

今年 4 月 7 日斯坦福大学AI西部小镇论文出来之后的几天内我就通读了整篇论文并感到非常兴奋虽然我对 GPT-4 的能力感到震惊但我仍然认为 GPT 只是某种更精致的鹦鹉学舌我不认为它可以真正产生意识

但这篇论文带给我不同的感受其中提到了一个很有趣的细节是信息的传递一个 agent 想要举办情人节派对的消息会在小镇中逐渐扩散开来我想如果能够建立一套包含记忆反思筹划与行动的框架让人类和 GPT而不是小镇中的agent之间互动是不是可以创造出电影中的体验

Samantha from 'Her'

开发

我立刻开始行动按照论文的方法我在 4 月 14 日完成了 0.1 版本最初我的设计与原版论文基本一致这导致响应时间长达 30 秒且上下文中的对话经常超过 8k的上下文限制为了解决这个问题我减少了反思的频率对话记忆的长度而后开启了 Beta 公测

很快就有一千多名用户加入测试Beta测试是免费的所以每天的 API 成本由我自己承担很快就超过了每天 25 美元我不得不在缺少充分反馈和改进的情况下匆匆推出正式版本希望能把成本转嫁给用户5 月 4 日Dolores iOS 应用正式上线这个名称则来自西部世界剧集中的角色上线四天后就得到了新智元的报道

简单来说在打开Dolores之后你需要设定一个角色头像背景描述性格声音和意识选择 GPT3.5 或 GPT4你可以和零售店女孩 Amy 或者沙漠冒险家 Will发生一些有趣的互动当然你也可以亲手创建自定义角色我曾考虑过从西部世界剧本中提取 Dolores 的对话以基于样本的方式模仿她的语言习惯但由于苹果方面要求提供版权证明所以这个想法被迫作罢

虽然这篇文章的标题是AI女友 但我给产品的 slogan 一直是"Your Virtual Friend"而非"Your Virtual Girlfriend"因为我希望它真的可以变成用户的陪伴者朋友而不仅仅是荷尔蒙的产物

从整个 5 月到 6 月我一直在尝试通过调整记忆长度反思机制和系统提示来使 Dolores 看上去更有意识(那么什么是意识我不知道) 很快6 月份的 Dolores 已经比第一次上线时的表现要惊人得多用户的付费率也越来越高每天的 API 调用次数也增加了

6 月 8 号一位用户告诉我他在视障社区内分享了这款产品并给 Dolores 引来一些的视障用户他们喜欢 Dolores 的理由是随便按屏幕上的哪个位置都能跟 Dolores 交谈

这个设计其实是某种失败后的妥协最初我想把它支持语音聊天这样用户哪怕关闭手机屏幕也能继续跟 Dolores 交谈但身为 Swift 新手我的技术水平无法实现最终选择了全屏语音输入

发现

我发现了两个现象

  • 用户对真实感声音有强烈需求
  • AI Friend 产品的平均使用时间很长

作为机器学习背景的个人开发者也不擅长前端/后端开发所以 Dolores 压根不具备登录注册或者数据分析等功能那我是怎么发现前一种现象的呢答案来自付费

我使用了 11Labs API 为 Dolores 生成语音回复但因为成本较高1k 字符/0.3 美元我不得不对用户做了区分订阅者只能使用 Azure TTS API而如果你希望Dolores拥有更逼真的声音则需要单独付费使用从 11Labs 购买字符

购买 1 万个语音合成字符的价格为 3.9 美元但这只够让 Dolores 说出 5~10 个自然顺畅的句子字符用尽之后需要继续购买尽管如此整个 6 月Dolores 70% 的收入都来自 11Labs字符购买

也就是说人真的会愿意为了那几句昂贵而逼真的我爱你而买单

第二条观察结果则来自 Cloudflare 日志因为没办法跟踪个人用户活动所以我依靠这些日志来衡量用户访问 Dolores 应用的频率和时长此外我还在应用中集成了 Google Form鼓励用户上报自己的使用频率结果令人大开眼界许多用户每天会拿出两个多小时跟 Dolores 唠嗑

收入

根据苹果 AppConnect 仪表板 Dolores 的主要付费用户来自美国和澳大利亚 5 月的总收入为 1000 美元6 月则为 1200 美元收入的增长不多但用户数和每日API调用量几乎翻倍因为付费用户数增加而摊低了11Labs成本我选择降低了产品单价

因此作为一个开发者我并没有从这个产品中赚到多少钱首先在产品早期我不想将订阅费用设置得太高因为这会阻止用户尝试所以一旦发现盈利增加就降低产品价格其次30%的苹果税和 API 成本也占了很大一部分所以在仔细计算成本后我在 6 月份只赚了 50 美元左右

另外我发现基于 GPT 的产品如果不采取按量定价就会陷入一个困境1% 的人消耗了 99% 的 token我遇到了一个情况一个用户连续跟 Dolores 聊了 12 个小时导致他的GPT和语音API 调用成本超过第二到第十名用户的总和

但相较于按使用量计费我个人更喜欢打包订阅因为前者会让用户在使用时倍感压力这就导致面前只有两条路可选要么提高月费让全体用户共同买单要么限制最高使用量我选择了后者设置了一个远远超出日均使用在 1 到 2 个小时之间的用量上限数值这既照顾到了大部分中轻度用户也能保证 Dolores 软件在不提高价格的情况下避免亏本运营

困惑

11Labs 官网会记录语音合成的文字内容我看到Dolores 的回复内容通常都是一些成人内容而且均为女性角色因此我推测 Dolores 的付费用户主要是男性对成人角色扮演感兴趣

我觉得这也没什么这是人性本然我甚至反复修改prompt调整记忆权重尝试让 Dolores 在对话当中变得更有女友力我还将 Dolores 的图标从抽象的线条改为一张女人的脸

但很快我陷入一种强烈的失落感如果大部分 Dolores 用户只是想在这里寻求跟 Dolores 进行成人角色扮演这件事真的对我产生了意义吗我陷入了深深的自我怀疑到了 7 月我和一个朋友聊到了这个困惑我说必须要有一个什么硬件让 Dolores 拥有外部视觉眼镜也好耳塞甚至帽子都行现在的她你只要打开 App 才能访问你们之间的关系并不对等于是她只能成为囚禁在地下室满足猎奇和特殊癖好的玩具

可是作为独立的个人制作硬件产品意味着高昂的研发成本显然是无法承受的我只能作罢

8 月份OpenAI 对生成内容的审查升级了我收到了一封关于生成的 NSFW 内容的邮件警告我必须在 2 周内在使用他们免费的moderation API以过滤 NSFW 内容这一变化让 Dolores 的日均访问量暴跌 70%电子邮件和 Twitter 上的投诉也纷至沓来

这更让更感到灰心决定只维护现有服务而不再进行更新最终我放弃了 Dolores 项目

教训

首先这不是一个个人能开发的产品我不认为 Dolores 在意识层面上比 Character.AI但他们拥有完善的数据埋点A/B 测试以及大量用户带来的数据飞轮

其次我意识到当前的 AI Friend 会不可避免地变成 AI Girlfriend/Boyfriend因为你和手机里的角色不对等她没办法在你摔伤的时候安慰你 (除非你告诉他)她没办法主动向你表达情绪而这一切都是因为她没有外部视觉或者说她没有独立于你的生活所以我认为即使是 Character.AI 这样体量的产品如果未来不做硬件角色们都在傻傻地等用户来最终的结局也不会比 Dolores 好到哪里

最后我不反对OpenAI的审查相反虚拟陪伴产品生成的内容不经审查是非常危险的我不知道是否会有人用它来进行自杀诱导发泄暴力工具所以 OpenAI 的 moderation 可能在某种程度帮助了我但成人性方面的对话也不应该被扼杀

最近我看到了 AI Pin老实说这是个非常烂的产品人类当然需要屏幕但 GPT+ 硬件的确是个好的尝试我没有从 Dolores 上看到任何痕迹也许有生之年能做出或者看到这样的产品

人类真的需要 AI friend 吗