Cointime

扫码下载App
iOS & Android

如何让AI像你最喜欢的作者一样写作:从提示到微调的分步指南

本文作者:DAN SHIPPER  编译:Cointime Candice

入门级AI写作有一种独特的平淡。

这是不真实的白话文。它有一种味道,但最引人注目的是没有任何真正的味道。因此,AI辅助写作受到了不好的评价。人们说它读起来像SEO内容堆栈的营销垃圾。它不适合严肃的作家。

这种批评是正确的,向ChatGPT或Bing这样的流行模式输入一个基本的提示,将输出完全中庸的反应。

但这种批评有点像是说键盘的输出通常是平淡的。是的,这是真的,当你第一次学会用键盘写字时,你不会写任何特别好的东西。

不过,只要稍加练习,你就可以用键盘写任何你想写的东西。AI也是如此。

我以前写过关于我如何在写作过程中使用AI的文章,它可以帮助我理清思路,找到一篇文章的叙事,或者在我陷入困境时帮助我。但今天我想重点谈谈AI辅助写作中最有用的一件事:

捕捉特定类型的声音或风格。

本文将介绍整个过程:从找到有效的提示到微调。最后,你将更加了解如何将生成型AI模型推向新的方向,以及如何为自己的写作增添更多深度和趣味。

我知道这篇文章的标题声称要教你如何使用AI像你最喜欢的作者一样写作。但这并不是要学会按下一个按钮,就能写出一部深度虚假的托尔斯泰小说。这在技术上是不可能的,也可能是不可取的。

相反,这篇文章将教你使用AI,像一个更丰富、更真实的自己一样写作。它可以用来帮助你了解你对某位作家的喜爱。它也可以用来帮助你的大脑进入他们的语言领域,这样你就可以将他们的一些风格融入到你自己的语言中。


我是如何开始这样做的

我非常喜欢Annie Dillard。

有时我想推动我的写作更好地描述自然,或者像她一样生动的隐喻或明喻。通常,如果我想这样做,我会坐下来读一些她的书,比如《汀克溪的朝圣者》或《写作生涯》,然后我就去写。

我读过的一些东西会影响到我当天的声音,如果我幸运的话,它会在我的写作中显现出来。这有点像把我推到正确的头脑空间,来获得我想要的风格。

最近,我开始琢磨GPT-3是否能在这方面有所帮助。我不希望它自动吐出我可以当作自己的文章。而是想知道它是否能像阅读作家的作品那样帮助我的大脑运转,但还有一点是,就是我所读的句子是关于我正在写的主题的,而不是完全不相关的。

于是我跳进OpenAI游乐场,尝试了一个天真的提示:“当我呼吸时,我感觉……”

我认为,从这样一句话开始,会有点接近Annie Dillard风格的语言领域。这可能是让GPT-3变得生动和诗意的机会。但并没有起到作用:

这在语法上是正确的,但它正如AI评论家所说。它平淡无奇,不做任何有趣的事情。但在大量实验之后,我想出了一些方法,让AI进入一个听起来更像Dillard的领域,这反过来又让我的大脑运转起来。

好了,准备好了吗?让我们开始探索吧。

如何在AI辅助写作中捕捉声音

我发现了三种在AI辅助写作中捕捉声音的好方法:

  1. 直接让AI像你心目中的作家一样写作。
  2. 描述作者的声音是什么样的,并要求AI像那样写作(最好是有例子)。
  3. 在特定作家身上微调AI。

我已经按照难度和费用的顺序列出了这些。如果你想自己做这件事,一开始就直接要求AI像你欣赏的作家那样写作。如果这不起作用,可以试着描述你希望AI写作的风格。最后,如果这也不行,就试着进行微调。

微调的技术性更强,成本也更高,但这并不一定意味着它将是你使用案例的最佳选择。先尝试简单的事情,然后再去做困难的事情。在这一过程中你会学到很多东西。(当然,如果你只是想做微调,因为这很有趣,那也很好,我不会阻止你。)

所以,让我们从第一步开始。直接要求AI像你心目中的作家那样写作。

让AI模拟一位著名作家

AI不是一个声音或思考的东西的。相反,它是一个模拟器。它正在接收提示并试图预测它认为你想要什么。因此,直接要求它发出你所欣赏的作家的声音是一个好的开始。

这实际上对那些作品很有名并且在互联网上很有代表性的作家来说非常有效。

让我们从要求GPT-3改写一个可以使用一些Dillard化的句子开始:

好吧,这显然是荒谬的,听起来一点也不像Dillard。但是……它听起来确实不同。

这应该告诉我们,我们有了新的发现。它的声音和语气,就像,隐约的莎士比亚式的或中世纪的或“高中生第一次发现词库”。它使用的是通常不会使用的词语。例如,我喜欢“软垫宝座”这个短语和“铿锵”这个词。因此,我可能不会全盘接受这个输出,但我可能会觉得在我写的任何东西中使用其中的一些词很好。这让我的思维活跃起来,扩展我的词汇量,这正是我想要的。

有趣的是,Bing(使用同一模型的更高级版本)在这里表现得更好:

在这里,我们可以看到Bing在使用比喻:“音符清晰而准确,就像悬在屋檐上的冰柱。” 这让人隐约感觉到Dillard-y。但我必须决定……这真的是事实吗?音乐的音符听起来清晰准确吗?我还必须决定悬挂在屋檐上的冰柱是否会让我想起这一点。

但现在我真的在想,我听的音乐质量如何?有什么比喻可以唤起它?这些问题让我的大脑运转起来,再一次帮助我改进我正在写的文章。

这种技巧对其他主要作家也很有效。这里是莎士比亚:

这里是Seinfeld:

与ChatGPT相比,使用Bing的好处是Bing可以访问互联网。因此,它可以实时查找作家,试图找到更多关于他们风格的信息,这有助于它提高自己的反应。这对于那些名气不大或在互联网上写作的例子较少的作家来说尤其有用。

花点时间来尝试一下,看看哪些有效,哪些无效。但是如果你没有得到你想要的结果,那么是时候进入下一步了:描述你想要的风格。

描述你想让AI做的写作类型

告诉AI“像Annie Dillard一样写作”或“像Tolkien一样写作”可以给你带来有趣的结果,但也很模糊。你想抓住Dillard或Tolkien的什么?是Dillard对自然的描述吗?是Tolkien关于矮人和魔法的故事吗?风格和内容之间有一条模糊的界限。AI必须猜测,这会使结果变得不那么有趣。

一个好的下一步是尝试具体化它。向它提出你想让它做什么的确切要求,并看看它是否能做到。这是一件值得尝试的事情,因为你得到的结果可能会更好,在这个过程中你会成为一个更好的作家。为了让你要求AI以特定的风格写作,你需要了解如何描述你想要的风格。你需要问问自己:我喜欢的这些作家都是因为什么?这个过程非常有价值。

这里有一个例子。当我想到我喜欢Annie Dillard的用词方式时,我立即想到了几件事:

Dillard用词生动,她有令人难以置信的隐喻和比喻能力,她对自然的描述是具体、美丽和深入的。

她的写作风格还有很多值得喜欢的地方,但对于这类事情,最好从简单的开始,并在其基础上构建。让我们看看使用这种描述会如何改变我们从AI获得的输出:

这样比较得体,但有点陈词滥调。但我想知道我们是否能让它更有趣。我想为我的提示对Dillard的写作做一个很好的描述。要做的一件事是看看评论家对她的评价,并将其纳入其中。

所以我找到了对她的书《写作生涯》的评论,并要求Bing对其总结:

以下是我得到的回复:

现在我可以将其中的一些内容重新纳入我的提示中,看看我得到了什么:

我真的很喜欢这个!“古典音乐响起,像一条优雅的丝带在空中交织”这句话太好了!我也喜欢“像雪花一样轻盈的梦”。它仍然有点沉重,对平凡的事情很敏感,但你可以看到,只要花一点时间在我们的提示上,就会完全改变我们从模型中得到的输出。

如果你还在寻找更多,下一步就是微调。

对一个作家的声音进行微调

尽可能接近某位作家的声音的方法是使用微调。

微调是一种通过在专门为特定任务设计的数据集上训练AI模型来使其适应特定任务的方法。这是一门很深的艺术。有很多变量可供选择,而人们对GPT-3等AI模型所了解的大部分内容似乎都是通过反复尝试获得的。(而且错误是昂贵的:微调需要花钱,一次微调要花10-50美元。)

这里有一些需要了解的基本情况。

当你对模型进行微调时,你给它提供提示和正确完成的例子。这是一种告诉模型的方式,“如果你看到这个提示,这里有一个好方法可以完成它的例子。”如果你一遍又一遍地向模型展示这样的例子,它最终会学会给出更接近你喜好的完成方式。

例如,如果你在一个提示完成对上进行微调,像这样:

提示:什么是最好的狗?

完成:伯尼杜德犬

下次你使用这个模型时,如果你问它最好的狗的种类,它就会更有可能吐出“伯尼杜德犬”。那么,问题是,我们如何微调这个模型,使它更有可能以我们最喜欢的作者的风格输出文字?

我尝试了很多不同的实验,试图让AI以特定作者的风格写作,而在一个空的提示上进行微调,完成几句作家的作品,似乎是最有用的。举例来说,你的微调可以是这样的:

提示

完成:“我以前有一只猫,一只喜好打架的汤姆,它会在半夜从我床边开着的窗户跳进来,落在我的胸口上。我半梦半醒。它会把脑袋贴在我的鼻子下面,发出呼噜声,散发着尿和血的臭味。有些晚上,它用前爪有力地揉捏着我赤裸的胸膛,弓着背,好像在磨爪子,又好像在做踩奶的动作,还有一些早晨,我白天醒来,发现我的身体上布满了血淋淋的爪印;我看起来好像被画上了玫瑰。”

这种类型的微调似乎教会了模型学会在任何提示下都倾向于特定作家的声音、风格和主题。这对我们的目的非常有用。

过程如下:

  1. 从你喜欢的作家那里找到大量的文本语料库;
  2. 将语料库分成几大块,每块有几个句子;
  3. 创建一个带有提示——完成对的文件,其中提示为空,完成部分为文本中的几句话;
  4. 对该文件进行8或16个时期的微调。

以下是如何做到这一点:

找到一个文本语料库

这一部分有点棘手,但对于任何没有版权的作者,你都可以使用古腾堡项目。对于其他作家,你通常可以在网上找到他们写过的东西,或者尝试购买和下载他们作品的无DRM数字版本。

有很多方法可以做到这一点,所以要有创意。但要确保合理使用和版权问题。

将文本语料库分成块并创建空的提示——完成对

这一步有点难度和技术性,但幸运的是,你实际上可以使用ChatGPT或Bing进行这个步骤。在结束时,你会需要一个看起来像这样的文件:

{“提示”:“”,“完成”:“[此处来自作者的文本]”}

{“提示”:“”,“完成”:“[此处来自作者的文本]”}

要获取此信息,请打开ChatGPT并询问:

请给我写一个Python脚本,读入一个文本文件,将其分成若干块,每块3句话,并将每块输出到一个有效的JSON文件中,格式如下:

{“提示”:“”,“完成”:“[第一块]”}

{“提示”:“”,“完成”:“[第二块]”}

……

拿出ChatGPT输出的脚本,并在上一步的文本语料库中运行它。

对JSON文件进行微调

既然有了JSON文件,现在是时候进行微调了。你应该参考OpenAI的微调指南,但基本步骤如下:

准备好数据

OpenAI有一个微调工具,它将检查JSON文件并对其进行修改以优化它。

运行以下命令准备数据:

openai tools fine_tunes.prepare_data -f <LOCAL_FILE>

完成这些后,就可以实际运行微调了。

运行微调

要启动微调,你可以运行以下命令:

openai api fine_tunes.create -t <TRAIN_FILE_ID_OR_PATH> -m <BASE_MODEL> --后缀"[命名你的型号]" --n_epochs 8

在OpenAI微调指南中,有两个重要的部分被遗漏了。第一,你应该设置你的后缀。这样就可以给你的模型起一个合理的名字,比如“我最喜欢的作家声音”,这样你以后就可以找到它了。第二,你应该将你的epoch值设置为8或16。Epoch是指模型在你提供的数据集上训练的次数。默认值是4次,但我的经验是,最佳点通常在8或16次左右。目前还不清楚为什么会这样,但8或16似乎让它足够专注于你给它的提示和完成度,以确保你想要的声音被传递出来。但这并不是太多的微调,你会过度拟合,结果会变得更糟。

使用你的模型

现在模型已经训练好了,是时候使用它了!我用Annie Dillard的作品训练了一个模型,结果如下:

这是另一个运行:

你会注意到,在这里,我并没有要求模型改写我的作品,只是以Dillard的方式继续它。我还没能让一个做改写的微调很好地发挥作用。但我确实认为这种类型的微调很好。它没有那么老套,它更多地体现了Dillard的风格和味道,对自然描述的非常生动且富有诗意。

最后

这就是:这些是让AI协助以你喜欢的作者的风格写作的基本知识。

在我们结束之前值得一提的是:你做这件事时需要小心。正如我在前面所写的那样,这些练习的目的不是帮助你创造深层次的复制品,而是帮助你找到自己的风格,并用你欣赏的作家的丰富性来改变它。

我建议你不要全盘接受这些模型的输出,而是将其作为自己工作的起点。如果你是在一个对抄袭标准很重视的环境中写作,那么你就必须通过抄袭检查器来检查这个输出,以确保它不会与别人的作品太接近。

但如果你认真对待上述问题,这里还有很大空间需要探索。你会得到很多奇怪和不稳定的输出。它会经常失败。

在不断的尝试和失败中,你会发现自己的声音。它将更丰富、更深刻,并带有我们读过和喜爱的作者的风格。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • 加拿大总理提议对股票和加密货币征收资本利得税

    加拿大总理Justin Trudeau提出了一项新的资本利得税,该税率将从50%到67%不等。根据加拿大税务局网站,常见的资本财产包括别墅、证券(如股票、债券、加密货币和共同基金信托单位)、土地和建筑物。在加拿大纳税人购买或持有加密货币无需纳税,对来自加密货币销售、挖矿活动或其他加密货币相关交易的资本收益或商业收入征税,个人加密货币持有者需为其总资本收益的 50%纳税,而专业(日间)交易者则需为其利润的100%纳税。

  • 泰国监管机构将打击欺骗性加密货币广告

    据《曼谷邮报》报道,包含虚假、夸大、扭曲、隐瞒或误导性信息的加密货币广告违反了泰国法规。主要加密市场的监管机构也采取了类似措施,以尽量减少加密投资的损失。例如,英国金融行为监管局 (FCA)仅在 2023 年就发布了 450 条非法加密货币广告警报。此外,2023 年 11 月,西班牙主要证券市场监管机构国家股票市场委员会谴责了 X 上的欺诈性加密资产促销活动,并重申公司有遵守当地法律的义务。 泰国证券交易委员会提醒加密货币交易所纳入有关投资风险的适当警告,并避免通过特别促销来吸引新用户。他警告说,违反上述指导方针将招致“依法惩处”。

  • 俄罗斯将实施加密货币限制,豁免矿工和央行项目

    俄罗斯将实施加密货币限制,豁免矿工和央行项目。自9月1日起,俄罗斯将对比特币等加密资产的流通实施严格限制。仅允许在其管辖范围内发行数字金融资产。 国家杜马金融市场委员会主席Anatoly Aksakov领导了这一举措。这是在地缘政治紧张局势加剧的情况下政府控制加密生态系统的更广泛努力的一部分。Aksakov表示,即将出台的立法旨在限制非俄罗斯加密货币业务,以加强卢布的主导地位。 与此同时,最近的报告表明,俄罗斯实体已使用加密货币,特别是 Tether 的 USDT来采购军事技术的关键组件。

  • 4月迄今以太坊链上稳定币交易量超1万亿美元,创历史新高

    4月29日消息,The Block数据显示,截至4月28日,4月以太坊链上稳定币交易量达1.08万亿美元,创历史新高,其中DAI交易量为5780.7亿美元,排名第一;USDC以2681.5亿美元交易量位居第二,USDT以1986.2亿美元交易量排名第三。

  • 许正宇:香港政府今年稍后将发表金融市场应用AI政策立场和方针

    香港财经事务及库务局局长许正宇在北京2024中关村论坛金融科技平行论坛时指出,随着人工智能科技不断演进,香港政府会保持开放态度,密切监察市场发展,以及参考海内外的经验,以推动金融业负责任地使用人工智能。今年稍后,香港政府会发表政策宣言,阐述香港政府对于在金融市场应用人工智能的政策立场和方针。 许正宇还表示,推动人工智能技术生态圈方面,香港数码港正全速设立人工智能超算中心,协助研究机构和业界应付算力需求,首阶段设施最快于今年内投入服务。此外,香港政府会拨款30 亿港元推行为期3年的人工智能资助计划,资助大学、研发机构及企业等运用算力,推动科研突破;加强算力中心的网络安全和数据保护;以及进行推广和教育活动等,从而吸引海内外人工智能专家、企业及研发项目落户香港。

  • 孙宇晨:以太坊现货ETF不会在5月获准

    波场 TRON 创始人孙宇晨在 X 平台发文表示,自己认为以太坊现货 ETF 在 5 月不会获批,加密行业仍需为监管机构的长期教育做准备,重点是帮助他们理解加密。

  • 欧盟成员国准备执行MiCA法案,加密货币公司应密切关注

    欧盟成员国即将实施MiCA法律,要求国家监管机构对加密货币服务提供商进行许可和监督。各国可以实施略有不同的技术标准,加密货币公司应密切关注政策观察者的建议。MiCA规定的稳定币发行者的专门规则将在几个月后生效,随后是针对加密货币公司的许可和其他要求。一些国家的加密货币监管将由中央银行承担,许多监管机构正在加强团队或培训人员以应对MiCA带来的挑战。

  • 全网ETH合约未平仓头寸为113.9亿美元

    Coinglass 数据显示,全网 ETH 期货合约未平仓头寸为 358 万枚 ETH,约合 113.9 亿美元。其中币安 ETH 合约未平仓头寸为 116 万枚 ETH(约合 36.9 亿美元),位列第一。

  • 发布1周年,一文理清ChatGPT时间线

    AI 元年,历史上的今天。

  • ChatGPT语音功能向所有用户免费开放

    OpenAI宣布,ChatGPT语音功能已向所有用户免费开放,用户可下载手机App使用该功能。