一文读懂零知识机器学习 (zkML) 的现状

作者：James McGirk. 编译：Cointime：QDD.

零知识机器学习为解决公共区块链的一些基本问题提供了难以置信的机会。在这篇文章中，Spectral考察了最新的技术进展，并与Modulus Labs、Jason Morton、Dante Camuto和Daniel Kang进行了交流。

机器学习和人工智能与零知识证明的结合为Web3带来了强大的工具。以下是Spectral如何应用零知识机器学习（zkML）的方法以及我们目前的状况。

Oracle问题一直是Web3面临的严重风险。您如何相信去中心化应用程序上的价格信息反馈没有被篡改？或者，更近一点的例子，您如何相信Spectral真正使用了链上信息和复杂的机器学习算法，而无法看到其中的详细信息？在过去，您是无法相信的，但是一系列涉及零知识证明的密码学技术突破使得验证复杂模型是否已应用于区块链数据变得快速且廉价成为可能。

零知识证明和Rollup技术

想象一下，如果你是唯一一个在色盲宇宙中能看到颜色的人。如果你想证明你能够区分红色和蓝色，你可以让别人测试你的能力，让他们标记两张在其他方面无法区分的纸张，然后测试你是否能够准确辨认出被标记的那张。第一次选对了可能会被认为是巧合，但随着测试次数的增多，你的准确性将不可否认。

从技术层面上来说，零知识证明（ZKP）可以类比为密码。密码会被转化为散列值并安全地存储在数据库中。从密码计算出散列值Y很容易，但是反过来使用散列值Y来推导生成的密码是困难的。更具数学意义的说法是，如果我知道一个密码（Pi），使得散列（密码）= Y，那么我可以生成一个证明并发送给验证者，使得他们相信我知道Pi。这个数学证明语句被称为零知识电路。

创建一个证明知道密码的零知识电路相对容易，但是证明机器学习算法已经在一组数据上运行，例如证明我们的MACRO Score是从我们的机器学习模型生成的，将需要一个非常复杂的电路和大量的计算能力（和燃气）。

使用ZKP技术，像Starkware和Matter Labs这样的公司已经开始将众多以太坊交易批量打包成一个单一的Rollup，基本上使用ZKP来压缩数十甚至数百个交易的链上活动，并将其打包为一个（使用燃气的）链上交易，称为zk-rollup。

根据Aligned最近的一篇文章估计，到2030年，仅Web3服务就将需要900亿个零知识证明，每秒交易量为83,000次，创造价值约100亿美元的市场。

过去，zk-rollup的能力存在一些实际限制，因为在历史上，许多操作需要签署仪式、定制软件和严肃的编程专业知识。Modulus Labs和EZKL最近一系列的技术发展已经取得突破：实际的zkML现在已经在商业上可行。

机器学习

机器学习被用来决定你在YouTube上看到哪些广告，你最喜欢的社交网络以什么顺序显示你的动态，以及离线情况下，回答更具影响力的问题，比如是否应该给予你抵押贷款，如何提高你的信用评分，或者越来越多的问题，比如你是否应该获得犯罪后的保释，你的保险公司应该为你提供哪些医疗服务等等。

这个概念很简单。在给出基本指令的情况下，可以创建一个算法，从一组数据中寻找模式或进行预测。训练模型使用了各种技术，最常见的是监督学习、无监督学习或强化学习，但它们都涉及将计算能力投入到创建一个越来越精确的权重系列和使用这些权重进行数据推理的模型中。

例如，Spectral的链上信用评分MACRO Score是通过钱包的链上数据和一个复杂且不断演化的机器学习模型生成的，详情请参阅《对MACRO Score的深入研究》。

正如研究员Daniel Kang指出的那样，模型越来越多地被保留在封闭的API后面。“这是有好的原因的：如果模型是基于用户数据（例如医疗数据）进行训练的，可能由于隐私原因无法公开模型权重，而公司希望保护商业秘密。例如，Twitter最近公开了他们的“针对你的”时间轴排名算法，但出于隐私原因无法公开权重。OpenAI也没有公开GPT-3或4的权重。”

目前，用户必须相信当他们将信息发送到API时，他们将收到他们所被告知的内容，或者他们的数据将受到保护。

零知识机器学习和信任假设的终结

除了提供改善链上协议资本效率的方式之外，我们的链上MACRO分数旨在展示如何将区块链数据与机器学习网络结合使用。目前，我们的用户无法确保在收到MACRO分数时是否使用了我们在文档中详细介绍的内部机器学习模型。同样适用于任何其他API，开发人员必须相信他们将收到他们所期望的数据。通过zkML，您可以通过数学验证确保您得到了您请求的内容。

如果有人希望我们证明我们训练模型的数据来自区块链，并且不仅仅是从三大信用局之一移植过来的信用评分，我们可以围绕我们的模型训练创建一个零知识电路，即一个函数（旧模型，输入训练数据）创建一个新模型。我们还可能希望能够证明我们使用我们的模型生成了特定的MACRO分数，而不透露创建它的机器学习模型的任何细节。在这种情况下，我们可以围绕一个推理的生成创建一个电路，即由新模型和推理输入创建的函数。

要超越仅仅查看链上钱包以提供信用评分，例如创建一个任何人都可以参与的分散式机器学习网络，而不透露使用的模型的任何不必要的细节，零知识机器学习至关重要。

EZKL和zkML

EZKL以圣经中被授予未来视觉的先知的名字命名，使用了一个库，允许开发人员使用开放神经网络交换（ONNX）导入的机器学习模型创建零知识证明。

我们与EZKL的创始人Jason Morton就该项目进行了交谈。他说：“没有任何一项突破性的发现使这一切成为可能。”他表示，“零知识更像是一个引线领域，问题是选择哪些可以工作的。”

他引用了尼尔·斯蒂文森（Neil Stevenson）的《秋季之后；或逃离地狱》（2019）一书，这本书在某种程度上激发了他对零知识的兴趣。“书中提到了一个叫PURDAH的概念，即即使在死后也能签署某些内容，我想知道是否有可能构建类似的东西。”Morton说。“所以我一直向下找，直到找到我能做到的东西。”

要执行zkML，首先必须使用数据集对机器学习模型进行训练。在训练阶段结束后，将机器学习模型参数转换为可用于零知识证明的格式。EZKL允许用户将ONNX模型转换为Halo 2电路。Halo 2是一种无需可信设置的递归证明系统，具有恒定大小的证明和高效的验证时间。EZKL还包括布局优化、量化以及在以太坊网络上部署证明的能力。

这个版本的EZKL在MobileNet V2上进行了测试，MobileNet V2是一种轻量级卷积神经网络（CNN）架构，专为移动和边缘计算提供高效能，并针对移动设备上的图像识别等低延迟和低功耗应用进行了优化。这足够让Spectral保护机器学习模型，并潜在地保护链下信用信息，并将其纳入我们的模型中。

有关Morton创办的Zkonduit的更多信息，请访问并尝试他们在Github上的repo：https://github.com/zkonduit/ezkl 或您可以在这里阅读有关LLMs的最新帖子：https://hackmd.io/mGwARMgvSeq2nGvQWLL2Ww

Modulus Labs和zkML

2023年1月，Modulus Labs发布了他们的第一篇论文《智能的成本》，这是“首次对一套常见AI原语的ZK-proof系统进行基准测试的工作”。他们的假设是，如果ZK-rollup范式已经准备好广泛解决以太坊的通用计算成本，那么它是否也能将人工智能推理带到分散式互联网中？要为MACRO分数构建零知识电路需要什么？

答案是一个名为Plonky2的证明者。表面上，即使对于一个小型人工智能模型，“snark”（指常见的零知识电路形式SNARK）也非常昂贵和耗时。我们与Modulus Labs创始人Daniel Schorr和软件开发人员Nicholas Cosby进行了交谈，他们估计在以太坊链上验证一个智能合约的最小部分的价格为30万单位的燃气（按当前价格约20美元每笔交易）。模型的递归结构允许他们压缩模型的结构，并且通过批处理，数千个事务可以合并成一个链上事务。他们希望最终将使用zk-inference的成本降低到接近零。

Modulus正在开展两个项目，第一个是RockyBot，这是一个零知识安全的战斗游戏，人类玩家训练人工智能相互对战。零知识使玩家能够相信对手确实按照他们所说的方式进行了训练。第二个项目是Leela vs the World，这是第一个链上人工智能游戏。

Daniel Kang和zkML

Daniel Kang和Edward Gan最近撰写了一篇关于发布他们的开源框架用于使用zkML生成零知识证明的文章。他们的开源框架是第一个能够产生大型机器学习模型（包括用于Twitter推荐的GPT-2和最先进的图像分类模型）的零知识证明的框架。

这些证明不需要任何额外的交互，也不需要证明者执行操作。更好的是，它们非常小，Kang写道：“即使对于大型模型，证明通常小于5kb。”它们的工作原理如下：

给定一组公共输入（x）和私有输入（w），ZK-SNARKS可以证明在不泄露私有输入的情况下，关系F(x,w)在这些值之间成立。

他以数独谜题为例。在这种情况下，公共输入是起始方块，私有输入是剩余的方块。对于机器学习来说，模型权重是私有输入。对于公共输入，有模型输入特征F和输出O。为了识别模型，他们“还包括模型承诺C作为公共输入。模型承诺类似于哈希，因此很高的概率是，如果权重被修改，承诺也会不同。因此，x =（C，F，O）。然后我们要证明的关系是，对于某个私有权重值w，具有承诺C的模型在输入F上输出O。”

这意味着如果验证者获得了证明和x，他们可以验证特定模型的运行是否诚实。

请查看他们的repo以获取更多详细信息并使用代码！

zkML（零知识机器学习）的应用场景：

"有很多人在考虑将zkML用于市场，"Jason Morton说。"这通常是类似于Kaggle的项目，我们提供编译器，而他们保持所有的东西都在本地。你可以通过这种方式保持架构的大部分隐私，当然，你会泄露一些信息，但只是一点点，没有办法收集到有多少层或它们的形状。"

从性能上讲，他预计会取得快速进展。"当然，事情总是可以慢下来的，"他说，"但事情进展得非常快，我在去年（2022年）9月做了一次演讲，ezkl已经比当时的技术水平快了4000倍。"

零知识专家面临的最大问题是思考数据出处和生态系统出处，他认为这从根本上说是一个社会问题，而不是一个技术问题。

隐私保护模型评估：企业和组织可以使用zkML来展示机器学习模型的准确性，而不揭示其参数。购买者可以在随机选择的测试数据集上验证模型的性能，以确保他们投资于一个合法和有效的产品。Worldcoin的一些例子包括：去中心化的Kaggle，在不揭示权重的情况下证明模型在测试数据上的准确性，或者在私人患者数据上进行医学诊断，只有患者可以看到结果。

计算完整性（有效性机器学习）：zkML可以用于证明计算的正确性。例如，一个在线交易机器人可以使用zkML证明某些功能的正确执行；其他例子包括具有智能功能的Lyra金融期权协议AMM、Astraly的基于AI的声誉系统或Aztec Protocol的接触层合规工具。zkML还可以用于验证输出是否是给定模型和输入对的产物，使得机器学习模型可以在链下运行。Giza正在与DeFi收益聚合器Yearn Finance合作进行这项工作。

机器学习即服务（MLaaS）的透明度：zkML可以用于证明服务提供商实际提供了他们所声称的模型。

链上验证：在区块链和分布式账本技术的背景下，zkML可以实现对机器学习模型的安全和隐私保护的验证。这可以帮助提高依赖人工智能的去中心化应用和智能合约的信任和透明度。

法律发现和审计：zkML可以用于进行审计或法律发现过程，而不揭示敏感数据。通过允许审计员和调查人员验证机器学习模型的准确性和合规性，而无需访问原始数据，zkML有助于保护数据隐私并确保符合监管要求。这种审计也可以延伸到智能合约领域，其中zk证明可以保证合约符合某些预定标准。

其他日常生活中涉及但不透明的重要算法过程的例子包括Twitter和其他社交媒体信息流（尽管已经努力将其中一些细节向公众开放）、保释决定、税务审计、养老基金投资策略等。虽然存在用于隐藏信息的加密方法，如完全同态加密机器学习（例如iPhone上的文本自动填充）或使用零知识原语或有效性机器学习，但对于需要同时具备计算完整性、启发式优化和隐私保护的应用场景，只有zkML可以满足需求，同时允许在区块链网络上使用算法，并具有可扩展性、安全性和去中心化特性。

关于零知识机器学习（zkML）如何融入可访问、公平、透明的金融未来

2022年4月，一起诉讼声称三大信用局之一无意中提供了数十万份不准确的信用评分。报道称，“多达30万人的信用评分发生了变动，超过25分，足以将借款人的信用评级从良好变为一般，或从一般变为差。”（NBC）对于这些评分背后的算法装置出现问题，外部人士完全无法察觉。

“现在，社会上一些最不可信赖的人在运行具有最广泛金融影响的机器学习模型，”伊·桑（Yi Sun），EthBogota 2022，Scaling up Trustless Neural Network Inference with Zero Knowledge Proofs。

信用评分不幸地代表了大数据和社会常常交集的方式；美国的消费者在未经同意的情况下被跟踪，并且他们的借贷行为由复杂的机器学习算法加权得出一个分数，当他们的行为发生变化时，这个分数可能会突然改变，对其财务造成严重后果。区块链允许公共数据通过算法进行安全透明的处理，但由于链上数据对任何人都是公开的，因此牺牲了隐私和可扩展性，因为在区块链上运行复杂的机器学习算法是缓慢且非常昂贵的。

如今，Web3还缺少隐私保护和一种一致、持久的用户所有身份的关键组件（即声誉原语）。虽然像谷歌、Facebook和Twitter这样的大平台可以填补这些空白，但为了真正实现去中心化并利用去中心化的好处，以及将某些决策委托给机器学习，我们必须能够隐藏我们正在使用的模型，同时仍然能够审查它们，并确保它们被公平使用，同时保护受这些决策影响的数据和用户。

zkML面临的挑战

即使使用了EZKL，零知识仍然需要大量计算，并给软件开发增加了额外的复杂性。EZKL的首席技术官Dante Camuto指出了一个微妙的技术问题。他说：“大多数机器学习模型都是使用浮点算术训练的，所以当你进入pytorch时，你得到的参数可能像这样：[1.234234, 1.585858, 9.5465665 ....] 当我们进入ZK领域——我们正在对字段（基本上是整数）执行操作——据我所知，如果不是所有的zkML方法都使用定点算术——你基本上是对模型进行量化，可能会损失一点精度。”

其他挑战包括：

运算符支持：目前的EZKL实现仅支持1500多个ONNX运算符的子集，限制了可以转换为零知识证明的模型类型。然而，该软件包不断改进以适应更广泛的运算符范围。

模型复杂性：机器学习模型的复杂性和参数数量会影响生成零知识证明的可行性。虽然没有参数数量的固定限制，但更复杂的模型将需要更多的时间和计算资源来生成证明。

训练：虽然可以实现用于训练的zkML，但其速度会比传统方法慢得多，成本更高。随着领域的发展，证明系统的创新可能会使训练变得更可行，但必须仔细权衡好处与成本。

可扩展性和优化：为机器学习模型生成零知识证明需要进行仔细的优化，并在证明时间、验证者时间和证明大小之间平衡权衡。随着领域的发展，对这些权衡的更好理解将有助于提高zkML解决方案的可扩展性。

相关资源

Worldcoin的《zkML简介》（Worldcoin's Introduction to zkML）

《zkML：通过零知识密码学演化智能合约的智能性》（zkML: Evolving the Intelligence of Smart Contracts Through Zero-Knowledge Cryptography）

《平衡与检查：机器学习和零知识证明》（Checks and Balances: Machine Learning and Zero-Knowledge Proofs）

《弥合鸿沟：zk-SNARKS如何通过zkML为私有机器学习模型带来透明度》（Bridging the Gap: How zk-SNARKS bring transparency to private ML models with zkML）

最近浏览

热门币种

每日趋势

每日必读

欢迎回来

注册账号

使用 email 登录

使用 email 注册

检查您的收件箱

所有评论

推荐阅读

美国4月CPI同比上升3.4%

BTC突破64000美元

Humanity Protocol以10亿美元估值完成3000万美元新一轮融资

以太坊上假冒GME代币发生Rugpull

ETH跌破2900美元

欧洲央行管委：我们很可能在六月开始降息

前FTX高管Ryan Salame请求法庭从宽处理，判处其18个月监禁

让 ICO 回归：分布式代币发行 (DTL)

宏观思考：并非都是厄运和阴霾

5月15日早间要闻速递

每日必读

Coinbase：一文看懂 EigenLayer AVS 格局

让 ICO 回归：分布式代币发行 (DTL)

宏观思考：并非都是厄运和阴霾

币安又被罚！遭加拿大罚款约440万美元

灰度报告：解析公链和代币化革命，谁会是RWA的最大受益者？

读懂做市商：灰色地带的掠夺者，保持市场持续流动性

热门标签

分享