谷歌正在摇摆不定。在一心一意崇拜虚拟助理这个假神多年之后,随着竞争对手携手举起革命的长矛,该公司正在匆忙制定人工智能战略。讽刺的是,这一切的发生是因为谷歌认为它已经占领了毋庸置疑的市场。
想想看,在2017年,谷歌的研究人员发表了《注意力就是你所需要的》一文,介绍了transformer的概念,它极大地提高了机器学习模型的能力。你不需要知道它的技术层面是怎么回事(事实上我也不是教你的人),但它具有巨大的影响力和能力;我只能说,它是GPT中的T。
你可能会问,为什么谷歌要把这个奇妙的东西免费送给别人?虽然大型私人研究机构过去曾因隐瞒工作而受到批评,但过去几年的趋势是走向出版。这是一种声望的游戏,也是对研究人员本身的一种让步,他们希望他们的雇主不要把他们的光芒藏在蒲团下。这其中可能也有傲慢的成分:既然发明了这项技术,谷歌怎么可能不好好利用它?
我们今天在ChatGPT和其他大型语言模型中看到的能力并没有立即出现。理解和利用一个新工具需要时间,每个主要的科技公司都开始研究人工智能的新时代可能提供什么,以及它需要做什么。
协助助理
毫无疑问,谷歌和其他人一样致力于人工智能工作。在接下来的几年里,它在设计人工智能计算硬件方面取得了重大进展,为开发人员测试和开发机器学习模型搭建了有用的平台,并发表了大量论文,内容从深奥的模型调整到语音合成等更容易识别的东西。
但是有一个问题。我从谷歌员工和业内其他人那里听说过这个轶事——其公司的工作方式有某种封建的一面:让你的项目在现有的主要产品(如地图或助理)的支持下运营,这成了获得资金和工作的可靠途径。因此,尽管Google囤积了许多世界上最好的人工智能研究人员,但他们的才华似乎被引导到了企业战略的圈子里。
我们不得不看看结果如何。这里有一个(公认的选择性)的小时间表。
2018年,他们展示了对谷歌助理流程、照片(如对单色图像进行着色)的渐进式改进,带有 “视觉第一版助理”的智能显示器(你见过吗?),地图中的助理,人工智能辅助的谷歌新闻,以及(他们的功劳)MLKit。
2019年,重塑品牌和更大的智能显示器、AR搜索结果、AR地图、Google Lens更新、网络的Duplex(还记得Duplex吗?)、压缩后的谷歌助理在本地可以做得更多、Waze中的助理、驾驶模式中的助理、现场字幕和现场转播(语音识别)以及一个更好地理解语言障碍者的项目。
可以肯定的是,其中一些东西很棒!然而,大多数都是一个现有的东西,只不过得到了人工智能的推动。现在回想起来,我们会都觉谷歌有点畏首畏尾。你真的看到了像谷歌这样的大公司是如何受制于趋势以及推动趋势的。
同时,在这一年的2月,我们也写过这样的文章:“OpenAI建立了一个非常好的文本生成器,它被认为太危险而不能发布”。当时还是GPT-2。不是3,不是3.5...。
2020年,谷歌做了一个人工智能驱动的Pinterest克隆版,然后在12月解雇了人工智能伦理学的主要声音之一Timnit Gebru,因为他的一篇论文指出了该技术的限制和危险。
公平地说,2020年对很多人来说都不是一个好年份,但OpenAI是一个明显的例外,其联合创始人萨姆-奥特曼不得不亲自压制对GPT-3的炒作,因为它已经超过了可承受的水平。
2021年,谷歌自己的大型语言模型LaMDA首次亮相,尽管演示并没有真正推销它。据推测,他们仍然在为它的存在寻找理由,而不是让助理类产品少出错。
OpenAI 以展示 DALL-E 开始了这一年,这是文本到图像模型的第一个版本,很快就会成为家喻户晓的名字。他们已经开始表明,通过 CLIP 等系统,LLM 不仅可以执行语言任务,还可以充当通用的解释和生成引擎。 (需要明确的是,我不是指“通用人工智能”或 AGI,只是说这个过程不仅仅适用于预设的口头命令集合。)
2022 年,谷歌对Assistant产品的更多调整、更多智能显示器、更多 AR 地图,以及 1 亿美元收购 AI 生成的个人资料图片产品。 OpenAI 则在 4 月发布了 DALL-E 2,在 12 月发布了 ChatGPT。
在某个时候,我怀疑是2022年初,谷歌高管们睁开了眼睛,他们看到的东西把他们吓坏了。我正在想象《指环王》中的场景,迪奈瑟终于看到了聚集在摩多的军队。但是,这些疯狂的副总裁并没有失去理智,被一个巫师摆平,而是发出电子邮件,询问为什么一些漂亮的初创公司在人工智能领域的世界领导者身边跑来跑去。特别是在他们几乎发明了这样做的手段之后。
这方面的证据是谷歌在《DALL-E 2》之后一个月推出的Imagen,尽管像谷歌公布的几乎所有其他有趣的人工智能研究一样,它并没有提供给任何人测试,更不用说连接到API。然后,在Meta于9月发布Make-A-Video后,谷歌在一周后以Imagen Video作为回应。Riffusion因生成音乐而掀起波澜,一个月后,MusicLM来了(你不能使用)。
但可以肯定的是,正是 ChatGPT 导致谷歌领导层迅速从焦虑转变为全力以赴。
所有参与者都会清楚,这种对话式人工智能与谷歌十年来一直投资的助理产品截然不同,而且实际上是在做其他人的伪人工智能(实际上只是一系列API的自然语言前台)所假装的事情。这就是所谓的生存威胁。
财富还是先见之明?
现在,一些对收购免疫的新秀,引发了搜索引擎的下一阶段演变,而且他们以高度公开的方式这样做,吸引了从行业领袖到技术规避者的想象,这已经够糟糕了。真正的转折来自于微软的意外之举。
将必应称为谷歌搜索的 “对手”也许过于慷慨,必应在全球搜索中的份额约为3%,而谷歌的份额为92%,必应更像是一个高富帅的小弟。微软似乎已经放弃了对必应改善其地位的能力的任何幻想,并向他们自己以外的地方寻求帮助。无论他们对OpenAI的投资是先天的预见性还是幸运的偶然性,在某些时候,他们显然已经支持了一匹快马。
也许在某个烟雾缭绕的房间里,萨蒂亚-纳德拉和萨姆-奥特曼密谋将谷歌排除在他们的新世界秩序之外,但在公开场合,对话的形式是金钱,而且是大量金钱。无论背景是什么,微软已经确保了它对这个创新的新来者的忠诚,并有机会将其技术应用于最有益的地方。
虽然我们已经看到了一些关于生成性人工智能如何帮助提高生产力、编程、甚至管理的有趣想法,但它们还没有被证实,原因是版权问题或人工智能的反应有点太 “创造性”的倾向。但是鉴于适当的护栏,它显然非常善于综合信息来回答几乎任何问题,从简单的事实查询到复杂的哲学问题。
搜索将微软对创新的需求与大型语言模型的核心竞争力结合起来,由于良好的机会或良好的意识,它刚刚将世界上最重要的创造者排成了一个合作伙伴。将最新的GPT模型(有人称之为GPT-4,但我怀疑OpenAI将为其自己的第一方模型保留这一名称)与Bing和Edge整合的举动是一种被迫的万福玛利亚,是其在搜索引擎领域的最后和最好的尝试。
谷歌显然被激怒了,在微软宣布采用OpenAI的必应的大事件的前一天,它试图用一篇空洞的博客文章进行破坏活动。Bard,显然是谷歌基于LaMDA的ChatGPT竞争对手的名字,以现在典型的闲置方式揭开了面纱。承诺了一些功能,但没有明确的日期或访问计划。
这次宣布的尝试似乎很匆忙,以至于它的内容在两天后谷歌的 “搜索和人工智能 ”活动中几乎没有被提及,事实上,如果你在宣传知识图谱的未来,它也逃脱了你想做的那种事实检查。用来展示Bard的图片包含一个非同小可的错误,说詹姆斯-韦伯太空望远镜 “首次拍摄了太阳系外行星的照片”。这是不真实的,这个被吹嘘的机器智能弄错了,而且谷歌没有人注意到或关心检查,这似乎已经吓坏了投资者。
ChatGPT当然有问题,事实上,在微软加强版必应推出后,有媒体能够让这个所谓的安全和适当的人工智能即兴创作一篇“希特勒”式的文章,然后转述上个月自己的一个早期版本写的疫苗假消息。但这些都是一个既定记录上的污点,其中包括数十亿次提示和对话服务,令其用户非常满意。
谷歌仓促出手,而且如此明显地被绊倒,说明即使是在有限的、实验性的水平上也缺乏准备,更不用说像微软已经开始的全球推广了。
在投资者电话会议上,首席执行官桑达尔-皮查伊说:“我认为我把这看作是一个重新思考和重新想象的机会,并推动搜索为我们的用户解决更多的用例。现在还为时过早,但你会看到我们很大胆,把东西拿出来,得到反馈,迭代,使事情变得更好”。这听起来像是一个有计划的人吗?
可以理解的是,谷歌不想过早地将搜索与他们身边任何半生不熟的LLM合并,从而宰杀这只金鹅。他们已经成为部署高度专业化人工智能的专家,任务模型只做一两件事。但是,当涉及到采取大的行动时,他们舒适的地位使他们有了惰性。
这是谷歌的衰落吗?当然不是,它在近期内仍将是默认的、利润丰厚的、有点可笑的公司。但是,投资者的信心已经被动摇了,因为事实证明,谷歌在过去几年中没有进行有意义的创新,可能不是出于智慧和信心,而是出于沉默和骄傲。(联邦贸易委员会和司法部对其广告业务再次出手,也无济于事)。
然而,这种缓慢的转变只是它衰落的迹象之一,当所讨论的技术尚未证明自己像每个人都愿意相信的那样有价值时,我们不能推测得太远。否则,整个科技行业都将面临后果,而不仅仅是谷歌。
所有评论