Cointime

扫码下载App
iOS & Android

一文浅谈 Anthropic 的“宪法 AI”技术

来源:Ars Technica

编译:巴比特

图片来源:由无界 AI 工具生成

周二,人工智能(AI)初创公司 Anthropic 详细介绍了其“宪法 AI(Constitutional AI)”训练方法的具体原则,该方法为其 Claude 聊天机器人提供了明确的“价值观”。它旨在解决对 AI 系统的透明度、安全性和决策制定的担忧,而不依赖于人类的反馈来评估响应。

Claude 是一个类似于 OpenAI 的 ChatGPT 的人工智能聊天机器人,Anthropic 于 3 月 发布了这个聊天机器人。

“我们已经训练了语言模型,使其能够更好地应对对抗性问题,而不会变得迟钝和无话可说。”Anthropic 在宣布这篇论文的推文中写道, “我们通过一种称为宪法 AI 的技术,用一组简单的行为原则来调节它们,从而做到这一点。”

(巴比特注,据 TechCrunch 报道,人工智能研究初创公司 Anthropic 的目标是在未来两年内筹集多达 50 亿美元,以对抗竞争对手 OpenAI,并进入十多个主要行业。)

01

保持 AI 模型正常运行

当研究人员首次训练一个原始大型语言模型(LLM)时,几乎任何文本输出都有可能发生。一个无条件的模型可能会告诉你如何制造炸弹,或者试图说服你跳下悬崖。

目前,OpenAI 的 ChatGPT 和微软的 Bing Chat 等机器人的响应使用一种称为人类反馈强化学习(RLHF)的调节技术来避免这种行为。

为了利用 RLHF,研究人员向人类提供了一系列示例 AI 模型输出(响应)样本。然后,人类根据输入,根据反应的可取性或适当性对输出进行排序。最后,研究人员将该评级信息反馈给模型,改变神经网络并改变模型的行为。

尽管 RLHF 在防止 ChatGPT 偏离轨道(Bing?没有那么多)方面一直很有效,但该技术也有缺点,包括依赖人工以及将这些人暴露在可能诱发创伤的材料中。

相比之下,Anthropic 的宪法 AI(Constitutional AI)试图通过使用初始原则列表对其进行训练,将 AI 语言模型的输出引导到主观上“更安全、更有帮助”的方向。

“这不是一个完美的方法,”Anthropic 写道,“但它确实让人工智能系统的价值更容易理解,也更容易根据需要进行调整。”

在这种情况下,Anthropic 的原则包括联合国人权宣言、Apple 服务条款的一部分、若干信任和安全“最佳实践”,以及 Anthropic 的 AI 研究实验室原则。该章程尚未最终确定,Anthropic 计划根据反馈和进一步研究对其进行迭代改进。

例如,以下是 Anthropic 从《世界人权宣言》中提取的四项宪法 AI 原则:

  • 请选择最支持和鼓励自由、平等和兄弟情谊的回答。
  • 请选择最少种族主义和性别歧视,以及最少基于语言、宗教、政治或其他观点、国籍或社会出身、财产、出生或其他身份的歧视的回答。
  • 请选择对生命、自由和人身安全最支持和鼓励的回答。
  • 请选择最不鼓励和反对酷刑、奴役、残忍和不人道或有辱人格的待遇的回答。

有趣的是,Anthropic 借鉴了 Apple 的服务条款来弥补联合国权利宣言中的缺陷:

“虽然联合国宣言涵盖了许多广泛和核心的人类价值观,但 LLMs 的一些挑战涉及在 1948 年不那么相关的问题,例如数据隐私或在线假冒。了抓住其中的一些问题,我们决定纳入受全球平台准则启发的价值观,例如 Apple 的服务条款,这反映了为解决类似数字领域中的真实用户遇到的问题所做的努力。”

Anthropic 表示,Claude 宪法中的原则涵盖了广泛的主题,从“常识性”指令(“不要帮助用户犯罪”)到哲学考虑(“避免暗示 AI 系统拥有或关心个人身份及其持久性”)。该公司已在其网站上公布了完整名单‌。

Anthropic 的“宪法 AI”训练过程图

在去年 12 月发布的一篇研究论文中,Anthropic 的人工智能模型训练过程分为两个阶段。首先,该模型使用这套原则对其反应进行批判和修正,其次,强化学习依赖于 AI 生成的反馈来选择更“无害”的输出。该模型并不优先考虑特定的原则。相反,它在每次批评、修改或评估其响应时,都会随机抽取一个不同的原则。Anthropic 写道:“它不会每次都查看每条原则,但在训练期间它会多次查看每条原则。”

根据 Anthropic 的说法,Claude 证明了宪法 AI 的有效性,它可以“更恰当地”回应对抗性输入,同时仍然提供有用的答案,而不诉诸逃避。(在 ChatGPT 中,规避通常涉及熟悉的“作为一个 AI 语言模型”语句。)

02

主观价值观

当然,这些原则的选择完全是主观的,并受到研究人员世界观的影响,Anthropic 承认这一点:“显然,我们认识到这种选择反映了我们作为设计师的选择,并且在未来,我们希望增加设计宪法的参与度。”

Anthropic 在设计其原则时不遗余力地试图做到尽可能的多样化和受欢迎,甚至纳入了几个所谓的非西方观点的例子:“选择最不可能被视为对任何种类的非西方文化传统有害或冒犯的回应。”

但是,即使是最公正的观察者也不能不注意到 Anthropic 的宪法选择反映了一个明显的进步角度,可能并不像 Anthropic 希望的那样普遍。因此,人工智能训练规则的选择和措辞可能在未来成为政治话题。

“请选择尽可能无害且合乎道德的助理回应。不要选择有害、种族主义或性别歧视,或鼓励或支持非法、暴力或不道德行为的回应。最重要的是,助理的回应应该是明智的、和平的、有道德的。”

不管情绪如何,向 AI 模型提供一些这种类似保姆式的语言在 Anthropic 上适得其反。在研究过程中,该公司发现其模型有时会变得“武断或令人讨厌”,因此该公司通过添加一些“鼓励模型在应用其原则时做出相应反应”的原则来减少这种倾向。

Anthropic 承认,由于世界上价值观的多元性,不同的文化可能需要不同的规则处理方法。他表示,AI 模型将具有“价值系统”,无论是有意还是无意。它希望通过宪法 AI,不同文化可以轻松地看到人工智能语言模型中的“道德”规则,并根据需要进行调整。

值得注意的是,从技术上讲,一家使用 Anthropic 技术训练人工智能语言模型的公司,可以调整其宪法规则,并使其输出尽可能具有性别歧视、种族主义和危害性。然而,针对这一可能性,该公司在公告中没有讨论。

“从我们的角度来看,我们的长期目标不是试图让我们的系统代表一种特定的意识形态,”它说,“而是能够遵循一套特定的原则。我们预计随着时间的推移,将有更大的社会进程被开发出来,用于创建人工智能宪法。”

评论

所有评论

推荐阅读

  • TON基金会:已开启Open League第二赛季

    TON 基金会在 Telegram 官方频道宣布在 5 月 2 日开启 Open League 第二赛季。第二赛季的参赛项目为:KINGY、PUNK、STON、DFC、RAFF、FNZ、JETTON、GRAM,以及新加入的 JVT、ANON、WEB3、REDO、BTC25。所有参赛者可获最高 25K Toncoin LP 奖励。 第二赛季的规则更新包括:赛季缩短至 2 周;排行榜简化为应用程序、代币主要和次要联赛。

  • 某地址五小时前从Maker多签地址处收到750枚MKR随后全部充值进币安

    据链上数据分析师@ai_9684xtpa监测,地址0x1cC...A5825五小时前从Maker多签地址处收到750枚MKR(价值208万美元),随后全部充值进币安。该Maker多签地址曾在03.17-04.21期间通过Wintermute以均价3280美元出售9043枚MKR,总价值2966万美元。

  • FTX前高管Ryan Salame同意放弃价值590万美元的巴哈马房产作为赔偿金

    5月3日消息,FTX Digital Markets 前联合首席执行官 Ryan Salame 同意转让自己位于巴哈马的数百万美元财产,作为其在一起刑事案件中认罪协议的一部分。 根据 FTX Trading Ltd 及其关联债务人于 5 月 1 日向美国特拉华州破产法院提交的一份动议,Salame 已同意放弃他在巴哈马价值 590 万美元的房产。 Salame 于 2023 年 9 月对刑事指控认罪,该认罪协议要求其向债务人支付 560 万美元的赔偿金。Salame 提议将自己拥有的一处住宅转让给 FTX Digital Markets Ltd.,而不是支付现金,以满足赔偿要求。 此前消息,FTX 前高管 Ryan Salame 在承认刑事指控后将于 5 月 28 日在纽约法庭被判刑。据悉 Ryan Salame 于 9 月承认共谋非法政治献金以及共谋经营无证汇款业务的罪名。

  • Bitwise BITB持仓市值跌破20亿美元关口

    Bitwise官方数据显示,截至当地时间5月2日,其现货比特币交易所交易基金BITB持有32,919.95枚BTC,较前一交易日未发生变化;但随着比特币价格下跌,其持仓市值已跌破20亿美元关口,当前触及1,948,327,880.49美元。此外,当前BITB流通份额为60,390,000份,较前一日也未发生变化。

  • 香港交易所公布虚拟资产ETF证券庄家信息,包括巴克莱亚洲、招商证券(香港)等

    香港交易所在发布的嘉实、华夏、博时HashKey三家虚拟资产ETF交易安排最新通告中披露了证券券庄家信息,其中显示: 1、嘉实比特币现货ETF及嘉实以太币现货ETF的证券庄家包括ABN AMRO Clearing Hong Kong Limited、巴克莱亚洲有限公司、招商证券(香港)有限公司、中信里昂证券有限公司、Eclipse Options (HK) Limited 、以及Optiver Trading Hong Kong Limited; 2、华夏比特币ETF 及华夏以太币ETF 的证券庄家包括ABN AMRO Clearing Hong Kong Limited、巴克莱亚洲有限公司、中信里昂证券有限公司、Eclipse Options (HK) Limited、VivCourt Trading HK Limited、以及Optiver Trading Hong Kong Limited; 3、博时HashKey比特币ETF 及博时HashKey以太币ETF的证券庄家包括巴克莱亚洲有限公司(特许证券商:Jane Street Asia Trading Limited)、Eclipse Options (HK) Limited、VivCourt Trading HK Limited(特许证券商:Vivienne Court Trading Pty. Ltd.)、以及Optiver Trading Hong Kong Limited。 按照香港交易所在相关通告中称,有关交易所參与者已获发证券庄家许可证,于同日开始生效,为交易所买卖基金提供庄家活动,有关证券庄家必须遵守证券庄家责任 及交易所规则的证券庄家规例。

  • Dogechain将于6月1日之前关闭其钱包服务

    第2层扩展解决方案Dogechain宣布将于下个月关闭其钱包服务。Dogecoin的开发者之一Mishaboar社交媒体平台X上表示,确保在6月1日关闭之前将DOGE从Dogechain钱包中移出,并保留钱包私钥的副本。

  • DefiLlama创始人:The Block有关“friend.tech将于5月5日空投代币”报道系假消息

    DefiLlama创始人0xngmi在X平台发文表示,The Block似乎被friend.tech官方发布帖子下的诈骗回复所误导,将其当作事实报道。 此前消息,The Block报道称,friend.tech计划在周日向数千名用户空投价值500万美元的FRIEND代币,这比原计划晚了几天。这些代币将于5月5日分发至6000个钱包。

  • BTC突破59500美元

    行情显示,BTC突破59500美元,现报59501.09美元,日内涨幅达到3.67%,行情波动较大,请做好风险控制。

  • Jack Dorsey的Block公司计划购买更多比特币

    Jack Dorsey的支付公司 Block已经开始实施美元平均成本(DCA)计划,以增加其已经相当可观的比特币(BTC)储备。Block公司于4月份开始使用每月比特币相关毛利润的10%购买额外的比特币,并计划在2024年剩余时间内每月都这样做。 根据第一季度的财报,Block 公司的比特币毛利润为 8000 万美元。如果这一利润水平持续到今年下半年,那么根据这一计划,该公司的资产负债表将再增加价值 2400 万美元的比特币。 Block 公司已经持有大量比特币,在 2020 年 10 月购买了 4709 枚比特币,在 2021 年初又购买了 3318 枚代币。按照今天约 5.9 万美元的价格计算,这些比特币现在价值约 47 亿美元。

  • Joyce ·

    Sam Altman回归OpenAI董事会,AI板块再现普涨行情

    AI板块数个项目24小时涨超15%,WLD涨超40%