作者:Dmitry Mazin 编译:Cointime Lu Tian
最近关于 Reddit 的抵制文章甚嚣尘上,而我对此颇感疑惑。许多分析都将 Reddit 视为一家即将上市的独立公司,研究其试图提高训练语料库价值或向用户展示更多广告的做法。但如果我们认为 Reddit 实际上是与 OpenAI 密切相关联的呢?
请听我解释。对 OpenAI 感兴趣的组织/个人,如 Sam Altman 和 a16z,在 Reddit 拥有大量股份,并与董事会保持密切联系。Altman 本人在董事会任职至 2022 年,并在 2014 年参与 YC 收购 Reddit,因此可能对公司有很大影响力。
那么,假如你同时控制了 OpenAI 和 Reddit,你会怎么做呢?
OpenAI 如何扩大其护城河优势
OpenAI 需要扩大护城河。尽管其专用用户群已经为其提供了强大的护城河,但在当前阶段,功能更强大(或限制更少)的 LLM 仍然有可能超越 ChatGPT(正如 Midjourney 有能力超越 DALLE2)。
众所周知的“我们没有护城河,OpenAI 也没有护城河”观点强烈主张访问计算资源并非是一个有效的护城河,而对谷歌(以及 OpenAI)的最大威胁来自开源模型。
Altman 试图保护 OpenAI 免受开源模型威胁的方法之一是游说美国、英国和中国的政府提高新兴 AI 组织的市场准入门槛。这正是他关于 AI 需要获得经营许可的建议所能达到的目的。
训练数据:一条坚实的护城河
同样,尽管获取计算能力并非一个稳固的护城河,获得高质量数据却是。这正是 Reddit 发挥作用的地方。
毫无疑问,Reddit 作为训练数据具有极高的价值。您搜索时有多少次会在关键词后加上“reddit”?
编辑声明: 我稍后会提到这一点,但我希望明确指出,OpenAI 最关心保护的是 Reddit 未来的数据。现有数据已被抓取。
众所周知,Reddit 的 API 变更主要是为了获取其语料库价值。然而,我认为一个被忽略的关键是,数据的购买者并不重要。更重要的是,OpenAI 能够更轻松地获取数据(假设共同投资者的公司互相帮助),而谷歌可能稍显困难,对新兴公司来说则极为困难。
Reddit 接下来要做什么?
当然,OpenAI 面临的挑战是如何在不破坏 Reddit 的前提下关闭它。Reddit 的未来数据价值极高,失去社区将摧毁其护城河。以 Twitter 为例,即使许多用户消失,Twitter 仍具有数据价值。这意味着即使 Reddit 变得更加核心化,并从版主手中夺取对所有子版块的控制权,人们仍会来 Reddit 提问和解答有价值的问题。例如,关心英国最好的床垫的人是否会关心 Reddit 的内部治理结构?
这看似是一个不错的策略:锁定 Reddit 能够打造一条坚实的护城河,失去它则无法形成护城河(这也是 OpenAI 寻求其他护城河的原因)。
那么 Reddit 的下一步行动是什么呢?
- 他们可以收购更多第三方客户端,这在一定程度上会安抚社区。但从 IPO 角度来看,这可能是一个糟糕的决策。
- 他们可以延长 6 月 30 日的最后期限,我认为这很有可能发生。这将摆脱第三方应用程序,同时也许可以保持大部分社区的完整性。无论如何,Reddit 当前的大部分数据已被抓取,因此其目标是保护 Reddit 的未来数据发展。另一方面,我可能猜错了,但延长截止日期可能会推迟 IPO,这可能并不是一个好主意——我对商业决策的了解有限。
- 我想提一个与我的理论相悖的看法:关闭第三方 API 访问主要是为了 IPO 而非 OpenAI。如果 Reddit 只是想限制数据抓取能力,他们完全可以在不破坏客户端的前提下实现——例如,通过许可协议。然而,如果训练数据的访问变成了争端焦点,我可以理解 Reddit 为何会极力保护其数据。比如,歌词网站、地图制作者和词典都会尽力保护他们的数据。对于 Reddit 来说,这并非难以想象的事情。
结论
我明白这是一个相当疯狂的理论:两家公司的股东很可能会利用一家公司来为另一家公司谋取利益。无论如何,我很愿意看到有人在这方面找出漏洞。我认为这是一个有趣的理论。
所有评论