Cointime

扫码下载App
iOS & Android

AGI的多模态、多模型以及Multi-everything的未来

本文作者:swyx;编译:Cointime Freya

GPT-4的FOMO解药,以及对Moravec悖论的沉思

正如传闻所说,以及微软德国公司随后证实的那样,近日,GPT-4在ChatGPT中发布了博文、论文、现场直播和几个短视频:

GPT-4是有史以来第11个最受赞誉的黑客新闻故事,Developer Livestream在20小时内获得了150万次观看(目前在YouTube总排名中排名第五),公告推文获得的点赞数是ChatGPT的4倍,要知道,ChatGPT本身就是2022年最大的故事。

很多屏幕截图和糟糕内容的镜头被到处转发,所以,我认为,就像对ChatGPT所做的执行摘要一样,我应该对GPT-4也做一次回顾,是很有必要的。

GPT-4执行摘要

GPT-4是OpenAI旗舰语言模型的最新版本。它是:

  • 在现有的GPT-3任务方面有明显的改进(这个改进体现在对标准NLP基准测试和SAT/GRE等人类考试上的显著改进,并且指令更好的遵循和更好的世界知识)。
  • 能够胜任新的任务(比如,知识储备的量足够到可以来计算个人税收,并不比Minerva差!)。
  • 能够存储比ChatGPT多8倍的上下文信息(2.5万字的上下文意味着,通过简单地复制粘贴文档就可以解锁更好的人工智能编程,或者粘贴整个维基百科的文章,甚至是比较两篇文章,从而实现来更好地交流)。
  • 使用起来更安全(胡言乱语和不安全内容减少20-30%)。

仅此一项就足以证明它是一个海量版本,但GPT-4也是OpenAI的第一个多模态模型,能够原生理解图像输入与文本。这比现有的OCR和图像转文本(例如BLIP)解决方案要好得多,你必须亲眼目睹才能完全理解,但你必须了解的功能包括:

  • 将网站草图转换为代码;
  • 完整描述Discord应用程序的截图;
  • 总结一篇论文的图像并回答有关数字的问题;
  • 识别照片(冰箱、厨房),提供饮食建议;
  • 解释图像为何有趣(熨衣服,鸡块,备忘录)。

仅此一项就足以证明它是一个海量的版本,但GPT-4也是OpenAI的第一个能够原生理解图像输入与文本的多模态模型。这比现有的OCR和图像转文本(例如BLIP)的解决方案要好得多,可能需要你亲眼目睹才能完全理解我刚才说的那些优点,必须了解的功能包括:

  • 将网站草图转换为代码;
  • 完整描述Discord应用程序的截图;
  • 总结一篇论文的截图并回答有关数据的问题;
  • 识别照片(冰箱、厨房),提供饮食建议;
  • 分析图像为何有趣(熨衣服,鸡块,备忘录)。

现在,获得获得GPT-4文本API访问权限的方式需要满足两点:成为ChatGPT Plus的订阅者(20美元/月),并通过等候名单或贡献OpenAI Eval。目前,多模态视觉API功能是BeMyEyes独有的功能。API定价现在分为提示代币和完成代币,比GPT-3.57高30-60倍。

与以往不同的是,OpenAI以竞争和安全问题为由,拒绝公布GPT-4的任何技术细节。这意味着Small Circle、Big Circle(原文是meme吗?)既没有被证实,也没有被否认,因此,对OpenAI不开放的另一轮批评又开始了:

  • 已知的:GPT-4的训练于2年前开始,到2022年8月结束,GPT-4的数据截止日期是2021年9月。
  • 未知的:数据、计算、硬件、参数或训练过程是如何从GPT-3改变的。

除了技术细节,OpenAI还专注于演示功能(如上所述)、扩展和安全研究(由OpenAI的Alignment Research Center完成),并在一次令人印象深刻的协调发布中,与发布合作伙伴演示用例(在发布当天提供了完整的GPT-4构建示例):

  1. 微软确认Prometheus就是他们的GPT-4代号,这意味着所有Bing/Sydney的用户都是真正的GPT-4用户,还增加了Bing的查询限制。
  2. Duolingo展示了西班牙语和法语的“给我的答案一个解释”和“角色扮演”的新功能(当然GPT-4也可以说许多其他语言)。
  3. Stripe测试了15个用例,包括支持定制、回答文档问题和欺诈检测。
  4. Intercom推出了他们的Fin聊天机器人,它可以减少无根据的答案(包括关于竞争对手的无根据的答案),消除歧义,并将其交给人类代理。

竞争动力学。GPT-4并不是周二发布的唯一一个基础模型,它协调的范围其实超越了OpenAI。谷歌和Anthropic都推出了它们的PaLM API和Claude+模型,Quora Poe是第一个同时发布OpenAI GPT-4和Anthropic的Claude+模型的应用程序。各公司在Pi Day上的发布周期竞争的异常激烈,有点像上个月谷歌与微软进行的特殊活动竞赛,引发了人们对人工智能安全的担忧。

多模态与多模型的人工智能之年

GPT-4的多模态是AGI未来的一个缩影。它没有符合大众的预期——它没有图像输出,并且由于Whisper API的发布,音频在可接受的输入中明显的缺失,但Jim Fan在这里的英雄形象大多是准确的:

然而,就在三天前,微软中国研究院发布了另一种使用Visual ChatGPT的多模态方法,可以实现像GPT-4一样,与图像进行交流。

这是一个多模态项目,更准确地说,这是一个多模型项目,因为,实际上,它的核心是:“trenchcoat中的22个模型”。

这暗示了实现多模态的两种方式——廉价的方式(将模型链接在一起,可能会使用LangChain)和“正确”的方式(训练和嵌入混合模态数据集)。我们有理由相信,多模态训练比单模态训练更有优势。就像在语言模型训练中添加代码语料库可以改善非代码自然语言的结果一样。我们可能会发现,对人工智能进行教学可以提高他们描述它的能力,反之亦然。

但多模型也被证明是有用的。Quora创始人Adam D'Angelo选择在OpenAI GPT-4和Anthropic Claude的支持下推出他的新Poe机器人,前GitHub首席执行官Nat Friedman建立了nat.dev,来帮助比较最大范围内的文本模型的输出:

Eliezer Yudkowsky也评论说,多模型对于模型的提炼很有用,最近斯坦福Alpaca的结果以GPT-3为基础,对Meta的LLaMa进行了微调,以使用缩小25倍的模型获得了类似的结果。

这似乎是一个富有成果的开发领域(如Palm-E、Kosmos-1、ViperGPT等),我预计多模式、多模型的开发将主导研究和工程周期,使我们越来越接近AGI的视域。

AGI = Multi-everything和Moravec悖论

Moravec悖论可以被概括为“计算机发现了人类难以发现的简单的事情,反之亦然”。但是人类能力的进化速度比计算机大约慢10万倍,而计算机从亚人类到超人类的进化并不需要很长时间。这不是一个新鲜的理论。LLM毫不费力地掌握多种语言(跨越最流行的人类语言和编程语言,但也越来越多地使用资源较少的语言的情况)和多学科(GPT-4同时能够成为调酒师、法学院学生、医学生和程序员,尽管英语文学是安全的)。

而这仅仅是我们能想到的两个维度。OpenAI ARC和Meta FAIR测试了人工智能的两面性,我们越来越多地看到,人工智能毫不费力地拥有多重人格——最近,Waluigi效应作为一种正式的速记方法进入了人工智能的讨论范围,Bing的Sydney表现出了令人不安的另类人格,这些人格分别被称为 Venom和Dark Sydney。然而,这只是开始。

人工智能没有义务以我们期望的方式多面化发展。我想起了电影《她》的结局,当Joaquin Pheonix得知Samantha同时爱上了641个人时,这个数字大到让他难以置信,但对于一个多元的人工智能来说,爱一个人只是一种功能。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • Tether投资2亿美元收购医疗设备公司Blackrock Neurotech的多数股权

    稳定币USDT的发行方Tether周一表示,通过其风险投资部门Tether Evo,投资2亿美元收购了脑机接口公司Blackrock Neurotech的大部分股权。Blackrock Neurotech开发的医疗设备由脑信号驱动,旨在帮助受到瘫痪和神经系统疾病影响的人。该科技公司与资产管理巨头BlackRock无关。投资将用于推出和商业化医疗设备,并进行研究和开发。Tether是USDT的发行公司,是市值达1100亿美元的最大稳定币。最近,Tether成立了四个部门,以扩大稳定币发行之外的业务。

  • 欧盟至少有10个国家正在敲定或已经敲定地方立法,以促进将MiCA法规转换为当地法律

    针对稳定币发行商的《加密资产市场 (MiCA) 法规》专项规则将率先生效,随后将在12月针对整个加密货币行业的公司实施许可和其他要求。 MiCA法规于2023 年获得通过,此前欧盟各国政府花了三年时间制定监管框架。一旦生效,每个司法管辖区都必须将欧盟范围内的MiCA法规转换为当地法律,选择其监管机构中的哪一个来监管加密货币,并准备授权代币发行商和其他服务提供商。目前20个国家正处于不同的准备阶段,至少有10个国家正在敲定或已经敲定了地方立法

  • 纽约公司Turnkey获得1500万美元A轮融资,将用于扩大业务和开发工作。

    纽约市的加密开发人员钱包基础设施提供商Turnkey获得了1500万美元的A轮融资,由Lightspeed Faction和Galaxy Ventures领投,Sequoia、Coinbase Ventures、Alchemy、Figment Capital和Mirana Ventures参与。该公司打算利用这笔资金扩大业务和开发工作。Turnkey由Bryce Ferguson和Jack Kearney共同创立,提供钱包基础设施,为构建链上体验的团队提供低级原语。Turnkey的产品套件使开发人员能够构建任何涉及钱包或加密交易的东西,并已为Alchemy、Dynamic、Goldfinch、Halliday、Thunder Terminal和Kinto等行业中最好的开发人员工具和应用程序提供支持。

  • 加拿大总理提议对股票和加密货币征收资本利得税

    加拿大总理Justin Trudeau提出了一项新的资本利得税,该税率将从50%到67%不等。根据加拿大税务局网站,常见的资本财产包括别墅、证券(如股票、债券、加密货币和共同基金信托单位)、土地和建筑物。在加拿大纳税人购买或持有加密货币无需纳税,对来自加密货币销售、挖矿活动或其他加密货币相关交易的资本收益或商业收入征税,个人加密货币持有者需为其总资本收益的 50%纳税,而专业(日间)交易者则需为其利润的100%纳税。

  • 泰国监管机构将打击欺骗性加密货币广告

    据《曼谷邮报》报道,包含虚假、夸大、扭曲、隐瞒或误导性信息的加密货币广告违反了泰国法规。主要加密市场的监管机构也采取了类似措施,以尽量减少加密投资的损失。例如,英国金融行为监管局 (FCA)仅在 2023 年就发布了 450 条非法加密货币广告警报。此外,2023 年 11 月,西班牙主要证券市场监管机构国家股票市场委员会谴责了 X 上的欺诈性加密资产促销活动,并重申公司有遵守当地法律的义务。 泰国证券交易委员会提醒加密货币交易所纳入有关投资风险的适当警告,并避免通过特别促销来吸引新用户。他警告说,违反上述指导方针将招致“依法惩处”。

  • 俄罗斯将实施加密货币限制,豁免矿工和央行项目

    俄罗斯将实施加密货币限制,豁免矿工和央行项目。自9月1日起,俄罗斯将对比特币等加密资产的流通实施严格限制。仅允许在其管辖范围内发行数字金融资产。 国家杜马金融市场委员会主席Anatoly Aksakov领导了这一举措。这是在地缘政治紧张局势加剧的情况下政府控制加密生态系统的更广泛努力的一部分。Aksakov表示,即将出台的立法旨在限制非俄罗斯加密货币业务,以加强卢布的主导地位。 与此同时,最近的报告表明,俄罗斯实体已使用加密货币,特别是 Tether 的 USDT来采购军事技术的关键组件。

  • 4月迄今以太坊链上稳定币交易量超1万亿美元,创历史新高

    4月29日消息,The Block数据显示,截至4月28日,4月以太坊链上稳定币交易量达1.08万亿美元,创历史新高,其中DAI交易量为5780.7亿美元,排名第一;USDC以2681.5亿美元交易量位居第二,USDT以1986.2亿美元交易量排名第三。

  • 许正宇:香港政府今年稍后将发表金融市场应用AI政策立场和方针

    香港财经事务及库务局局长许正宇在北京2024中关村论坛金融科技平行论坛时指出,随着人工智能科技不断演进,香港政府会保持开放态度,密切监察市场发展,以及参考海内外的经验,以推动金融业负责任地使用人工智能。今年稍后,香港政府会发表政策宣言,阐述香港政府对于在金融市场应用人工智能的政策立场和方针。 许正宇还表示,推动人工智能技术生态圈方面,香港数码港正全速设立人工智能超算中心,协助研究机构和业界应付算力需求,首阶段设施最快于今年内投入服务。此外,香港政府会拨款30 亿港元推行为期3年的人工智能资助计划,资助大学、研发机构及企业等运用算力,推动科研突破;加强算力中心的网络安全和数据保护;以及进行推广和教育活动等,从而吸引海内外人工智能专家、企业及研发项目落户香港。

  • 马斯克的人工智能公司xAI或融资30亿美元

    知情人士称,与马斯克关系密切的投资者正洽谈帮助其AI初创公司xAI融资30亿美元,本轮融资将使该公司估值达到180亿美元。据悉,考虑投资此轮融资的支持者包括风险投资公司Gigafund和美国风投家Steve Jurvetson。xAI的融资条款尚未最终确定,计划可能会发生变化。