Cointime

扫码下载App
iOS & Android

深度思考:为什么说ChatGPT是网上所有文本的模糊图像?

个人专家

众所周知我是一个GPT爱好者,已经将其融入工作和生活的方方面面。 但GPT也不是万能的,我们需要认清其本质,才能更好使用其能力。强烈推荐特德·姜这篇极具洞察的文章《ChatGPT是网上所有文本的模糊图像》,独特见解发人深省。我总结了3个点,欢迎阅读。

特德·姜,华裔科幻作家,毕业于布朗大学计算机系,其短篇小说《你一生的故事》在2016年被改编成电影《降临》 技术和科幻的双重背景,让其对ChatGPT具有了独特见解。

TL;DR

  • ChatGPT是网上所有文本的有损压缩
  • 警惕「美丽的模糊」
  • 「原创想法的拙劣表达」好于「清晰表达的非原创想法」

1、ChatGPT是网上所有文本的有损压缩

如果将互联网上的所有文本看做是原件,考虑到处理速度和准确度,ChatGPT 实际上是这些文本的有损压缩后一个自然语言交互接口。既然是有损压缩,就会抛弃一些细节,甚至关键信息。

关于有损压缩可能会导致的问题,作者举了一个形象的例子:2013 年德国一家建筑公司复印了一张房子平面图,三个房间都有一个标签来说明其面积:14.13,21.11和17.42平方米。然后在复印件中,所有三个房间都被标记为14.13平方米。

经过调查发现,这台施乐复印机的工作原理是,先把文档扫描为数字图像,然后再进行打印。为了节省空间,扫描为数字图像时使用了一种被称为 jbig2 的有损压缩格式。复印机判断 3 个房间的面积标签非常相似,所以它只存储了其中一个,然后在打印时对所有 3 个房间都重复使用了这一个标签。

施乐复印机使用有损压缩格式而不是无损格式,这本身并不是一个问题 问题是如果只是打印出模糊的照片,每个人都会知道这不是原件的准确复制品,但复印机打印出了清晰但不准确的图片,可能会对使用者产生误导

作者认为,在我们使用 OpenAI 的 ChatGPT 和其他类似大语言模型时,需要对这个例子铭记于心。ChatGPT 保留了万维网上的大部分信息,就像 JPEG 保留了高分辨率图像的大部分信息一样。但是,如果你要寻找精确的比特序列,你无法找到它,你得到的只是一个近似值。

可以看到,在 OpenAI 论文的最新真实性评估中,虽然 GPT-4 比过往模型高很多,但仍然有不低的概率生成错误答案(特别是在科技、代码和商业领域),我们需要小心。

2、警惕「美丽的模糊」

我们对世界的认知,本质上也是对信息的接收和压缩。我们识别和抛弃不重要的信息,留下重要的信息,同时在这个过程中锻炼和使用了决策能力。都是对信息的有损压缩,我们和ChatGPT有何不同? - 我们对信息的压缩,是建立在对事实的理解上,最后留下的是「模糊的正确」 - ChatGPT 并没有真正的「理解」信息,建立在统计规律上输出「美丽的模糊」。 再看 2 个形象的例子:

  • 如果让 ChatGPT 计算 3457 * 43216,会给出错误答案 149299312(正确答案149397712) 最后一位正确是因为有很多以 6 和 7 结尾数字的乘法让 ChatGPT 学习,但因为其并没有真正理解算术原理,所以最后给出是错误答案。
  • 对文本的任何分析都会揭示,“供应不足”这样的短语经常出现在“价格上涨”这样的短语附近 当被问及有关供应不足的问题时, AI可能会给出包含价格上涨的回答。如果AI已经编译了大量经济术语之间的相关性,多到可以对各种各样的问题提供合理的回答,我们是否应该说它实理解了经济理论?显然没有。

ChatGPT 擅长产生美丽的答案,但美丽≠正确。我们必须时刻铭记这一点,ChatGPT 输出的结果可能会漂亮清晰但不准确,要识别它们就需要将它们与原件进行比较,否则就有可能基于瞎编的内容进行错误的决策。下面 bing 产生的这个答案,就是典型的「美丽的模糊」。

3、「原创想法的拙劣表达」好于「清晰表达的非原创想法」

有一种观点,让 ChatGPT 生成的文本作为作家在创作原创作品时的起点,让作者把注意力集中在真正有创意的部分,这样可行吗? 作者认为,以一份模糊的非原创作品作为起点,并不是创作原创作品的好办法。

如果你是一个作家,在你写原创作品之前,你会写很多非原创的作品。花在非原创工作上的时间和精力不会被浪费。相反,正是它让你最终能够创作出原创的作品 花在选择正确的词汇和重新排列句子上的时间,教会了你如何通过文章传达想要表达的意思。

让学生写论文不仅仅是一种测试他们对材料掌握程度的方法,这给了他们表达自己想法的经验。如果学生从来不用写我们都读过的文章,他们就永远不会获得写我们从未读过的东西所需的技能。

那是不是脱离学生身份后,就可以安全地使用 ChatGPT 等大语言模型提供的模板了呢? 然而并不是。想要表达自己想法的挣扎并不会在你毕业后消失。每当你开始起草一篇新文章时,这种挣扎就会出现。有时候,只有在写作的过程中,你才能发现自己最初的想法,这点非常关键。

有些人可能会说,大语言模型的输出看起来与人类作家的初稿没有太大不同,但这只是表面上的相似 你的初稿不是「清晰表达的非原创想法」;它是「原创想法的拙劣表达」,它伴随着你无定形的不满,你意识到它所说的和你想说的之间的距离。

这是在重写时能够指导你的东西,这是当你开始使用人工智能生成的文本时所缺乏的东西。基于「清晰表达的非原创想法」,会很容易让人失去想法;而从「原创想法的拙劣表达」开始,逐步打磨,最终会收获「原创想法的精确表达」,原创可能会成为玉石,非原创只会流于泛滥。

总结 2 点Take Away:

  1. ChatGPT是网上所有文本的有损压缩,我们必须时刻铭记这一点,警惕把「美丽的模糊」当做准确信息,影响判断和决策
  2. 2. 在挣扎和拙劣表达中发现「原创想法」,同时提升自己的表达能力,将其打磨成玉石 训练想象力、决策和沟通能力,打造机器无法拥有的竞争力
评论

所有评论

推荐阅读

  • 比特币二层网络ZKM完成500万美元Pre-A融资

    比特币二层网络 ZKM 宣布完成 500 万美元 Pre-A 融资,OKX Ventures 领投,Amber、Metis Foundation、Crypto.com 和其他公司参投。ZKM 是一个基于零知识证明的网络,旨在统一区块链,在以太坊上创建一个结算层。

  • 5月7日晚间要闻速递

    1. BTC突破64000美元

  • Dayton公司Niobium获得550万美元的种子轮融资,将用于开发FHE加速的商业应用程序。

    总部位于俄亥俄州代顿的定制硅提供商Niobium获得了550万美元的种子轮融资,由Fusion Fund领投,Morgan Creek Capital、Rev1 Ventures、Ohio Innovation Fund和Hale Capital也参与了投资。此次融资中,Niobium增加了新的董事会成员Shane Wall,他是Fusion Fund合伙人、CXO Network总裁、惠普公司前首席技术官和全球惠普实验室负责人。该公司计划利用这笔资金开发FHE加速的商业应用,包括医疗和制药研究、金融欺诈检测、区块链公共账本、数字广告等领域,这些领域需要在保持完全隐私的同时共享和分析数据。Niobium开发定制硬件解决方案,提供专用硬件,能够将完全同态加密(FHE)推进商业应用。该技术使数据在计算过程中保持加密状态,实现了一种新型的多方机器学习和统计分析应用,具有数学上的隐私保证。该公司在俄亥俄州哥伦布、俄勒冈州波特兰和加利福尼亚州旧金山设有办事处。Niobium的CEO和总裁Kevin Yoder表示:“获得这笔融资证明了我们在Niobium所做的开创性工作,并推动我们进入将FHE加速器芯片推向市场的下一个关键阶段。我们通过先进的加密技术重新定义数据隐私和安全的愿景现在更接近现实。这项投资使我们能够快速探索需要绝对数据隐私的应用,为各行各业开启了保密计算的新可能性。我们感谢我们的投资者分享我们对更安全和私密的数字未来的愿景。”

  • Botanix Labs宣布完成1150万美元融资,Polychain Capital等参投

    Botanix Labs宣布筹集了1150万美元的资金,Polychain Capital、Placeholder Capital、Valor Equity Partners和ABCDE等机构参投。其他投资方包括Andrew Kang、Fiskantes、Dan Held、The Crypto Dog、Charlie Spears、Altcoin Sherpa、Dovey Wan、Jebus、Icebergy、Crypto ISO、Davis、Walt Smith和BRC-20代币标准的创造者Domo。

  • Galaxis完成1000万美元融资,Chainlink、Rarestone Capital等参投

    新加坡Web3平台Galaxis宣布,在其代币发行前已完成1000万美元融资。此轮融资的参与方包括Chainlink、ENS、Rarestone Capital、Taisu Ventures以及ENS联合创始人Nick Johnson等。Galaxis自称是一个“后炒作时代的NFT实用平台”,此前曾为DJ SteveAoki、演员ValKilmer等名人推出NFT系列。该平台已售出超过22.5万枚NFT,在二级市场产生逾3.2万枚ETH(约1亿美元)的销售额,目前正准备进行大规模分发。

  • 香港金管局成立Ensemble项目架构工作小组 初期聚焦代币化资产交易

    香港金融管理局5月7日宣布成立Ensemble项目架构工作小组,与业界共同建立标准和提出建议,支持香港代币化市场发展。工作小组将推动制定业内标准,以支援批发层面央行数码货币(wCBDC)、代币化货币和代币化资产之间的互通性。工作小组会就特定议题提出建议,初期会聚焦为代币化资产交易建立机制,透过wCBDC畅顺地进行代币化存款的银行同业结算。工作小组亦会协助设计和构建计划于今年年中推出的Ensemble项目沙盒,进一步研究及测试代币化用例。

  • 澳大利亚税务局将强制加密货币交易所提供120万交易者的个人和交易细节

    澳大利亚税务局将强制加密货币交易所提供120万交易者的个人和交易细节,以打击试图逃避纳税义务的人。据报道,监管机构要求加密货币交易所提供高达120万个账户的个人数据和交易细节。澳大利亚金融评论报告称,“作为四月份宣布的监视行动的一部分,税务局表示,其最新的数据收集协议将要求指定的加密货币交易所提供交易者的姓名、地址、生日和交易细节,以帮助其审计遵守销售资本利得税的义务。”税务局表示,这些数据将有助于识别未报告加密货币相关活动的交易者,包括将加密资产兑换成货币或用于支付货物和服务的交易。澳大利亚加强对加密货币行业的打击自FTX破产以来更加明显。税务局去年明确表示,其对加密产品的资本利得税也适用于包装代币或代币与去中心化借贷协议的交互。

  • 币安研究院:4月加密货币总市值下降11.3%,美元稳定币总供应达两年来高点

    币安研究院(Binance Research)发布 4 月加密市场报告,要点如下:4 月加密货币总市值下降 11.3%,导致这一情况的主要原因包括降息预期的变化、地缘政治风险以及现货比特币 ETF 流量的放缓;与此同时,美元锚定稳定币总供应量达到两年来最高点。USDT 和 USDC 供应一直在稳步增加,表明持续的资本流入加密市场;市值排名前十代币大多数在本月结束时都处于下跌状态,TON 和 BNB 则分别上涨 1.0%和小幅下跌 1.4%,ETH 和 BTC 在 4 月份都下跌了 8%左右,XRP 和 SHIB 本月分别下跌 17.1%和 19.2%。DOGE、ADA、SOL 和 AVAX 截至月底下跌了约 30%;4 月 DeFi 整体 TVL 下降 0.7%。在排名前十的区块链中,Merlin Chain TVL 增长最快,增幅达 1000%,TVL 超过 10 亿美元;NFT 市场在 4 月也出现下滑,月总销售额下降 21%,至 11.1 亿美元。当月销售额前五的 NFT 系列中有四款属于比特币生态。

  • 发布1周年,一文理清ChatGPT时间线

    AI 元年,历史上的今天。

  • ChatGPT语音功能向所有用户免费开放

    OpenAI宣布,ChatGPT语音功能已向所有用户免费开放,用户可下载手机App使用该功能。