Cointime

扫码下载App
iOS & Android

如何让AI像你最喜欢的作者一样写作:从提示到微调的分步指南

本文作者:DAN SHIPPER  编译:Cointime Candice

入门级AI写作有一种独特的平淡。

这是不真实的白话文。它有一种味道,但最引人注目的是没有任何真正的味道。因此,AI辅助写作受到了不好的评价。人们说它读起来像SEO内容堆栈的营销垃圾。它不适合严肃的作家。

这种批评是正确的,向ChatGPT或Bing这样的流行模式输入一个基本的提示,将输出完全中庸的反应。

但这种批评有点像是说键盘的输出通常是平淡的。是的,这是真的,当你第一次学会用键盘写字时,你不会写任何特别好的东西。

不过,只要稍加练习,你就可以用键盘写任何你想写的东西。AI也是如此。

我以前写过关于我如何在写作过程中使用AI的文章,它可以帮助我理清思路,找到一篇文章的叙事,或者在我陷入困境时帮助我。但今天我想重点谈谈AI辅助写作中最有用的一件事:

捕捉特定类型的声音或风格。

本文将介绍整个过程:从找到有效的提示到微调。最后,你将更加了解如何将生成型AI模型推向新的方向,以及如何为自己的写作增添更多深度和趣味。

我知道这篇文章的标题声称要教你如何使用AI像你最喜欢的作者一样写作。但这并不是要学会按下一个按钮,就能写出一部深度虚假的托尔斯泰小说。这在技术上是不可能的,也可能是不可取的。

相反,这篇文章将教你使用AI,像一个更丰富、更真实的自己一样写作。它可以用来帮助你了解你对某位作家的喜爱。它也可以用来帮助你的大脑进入他们的语言领域,这样你就可以将他们的一些风格融入到你自己的语言中。


我是如何开始这样做的

我非常喜欢Annie Dillard。

有时我想推动我的写作更好地描述自然,或者像她一样生动的隐喻或明喻。通常,如果我想这样做,我会坐下来读一些她的书,比如《汀克溪的朝圣者》或《写作生涯》,然后我就去写。

我读过的一些东西会影响到我当天的声音,如果我幸运的话,它会在我的写作中显现出来。这有点像把我推到正确的头脑空间,来获得我想要的风格。

最近,我开始琢磨GPT-3是否能在这方面有所帮助。我不希望它自动吐出我可以当作自己的文章。而是想知道它是否能像阅读作家的作品那样帮助我的大脑运转,但还有一点是,就是我所读的句子是关于我正在写的主题的,而不是完全不相关的。

于是我跳进OpenAI游乐场,尝试了一个天真的提示:“当我呼吸时,我感觉……”

我认为,从这样一句话开始,会有点接近Annie Dillard风格的语言领域。这可能是让GPT-3变得生动和诗意的机会。但并没有起到作用:

这在语法上是正确的,但它正如AI评论家所说。它平淡无奇,不做任何有趣的事情。但在大量实验之后,我想出了一些方法,让AI进入一个听起来更像Dillard的领域,这反过来又让我的大脑运转起来。

好了,准备好了吗?让我们开始探索吧。

如何在AI辅助写作中捕捉声音

我发现了三种在AI辅助写作中捕捉声音的好方法:

  1. 直接让AI像你心目中的作家一样写作。
  2. 描述作者的声音是什么样的,并要求AI像那样写作(最好是有例子)。
  3. 在特定作家身上微调AI。

我已经按照难度和费用的顺序列出了这些。如果你想自己做这件事,一开始就直接要求AI像你欣赏的作家那样写作。如果这不起作用,可以试着描述你希望AI写作的风格。最后,如果这也不行,就试着进行微调。

微调的技术性更强,成本也更高,但这并不一定意味着它将是你使用案例的最佳选择。先尝试简单的事情,然后再去做困难的事情。在这一过程中你会学到很多东西。(当然,如果你只是想做微调,因为这很有趣,那也很好,我不会阻止你。)

所以,让我们从第一步开始。直接要求AI像你心目中的作家那样写作。

让AI模拟一位著名作家

AI不是一个声音或思考的东西的。相反,它是一个模拟器。它正在接收提示并试图预测它认为你想要什么。因此,直接要求它发出你所欣赏的作家的声音是一个好的开始。

这实际上对那些作品很有名并且在互联网上很有代表性的作家来说非常有效。

让我们从要求GPT-3改写一个可以使用一些Dillard化的句子开始:

好吧,这显然是荒谬的,听起来一点也不像Dillard。但是……它听起来确实不同。

这应该告诉我们,我们有了新的发现。它的声音和语气,就像,隐约的莎士比亚式的或中世纪的或“高中生第一次发现词库”。它使用的是通常不会使用的词语。例如,我喜欢“软垫宝座”这个短语和“铿锵”这个词。因此,我可能不会全盘接受这个输出,但我可能会觉得在我写的任何东西中使用其中的一些词很好。这让我的思维活跃起来,扩展我的词汇量,这正是我想要的。

有趣的是,Bing(使用同一模型的更高级版本)在这里表现得更好:

在这里,我们可以看到Bing在使用比喻:“音符清晰而准确,就像悬在屋檐上的冰柱。” 这让人隐约感觉到Dillard-y。但我必须决定……这真的是事实吗?音乐的音符听起来清晰准确吗?我还必须决定悬挂在屋檐上的冰柱是否会让我想起这一点。

但现在我真的在想,我听的音乐质量如何?有什么比喻可以唤起它?这些问题让我的大脑运转起来,再一次帮助我改进我正在写的文章。

这种技巧对其他主要作家也很有效。这里是莎士比亚:

这里是Seinfeld:

与ChatGPT相比,使用Bing的好处是Bing可以访问互联网。因此,它可以实时查找作家,试图找到更多关于他们风格的信息,这有助于它提高自己的反应。这对于那些名气不大或在互联网上写作的例子较少的作家来说尤其有用。

花点时间来尝试一下,看看哪些有效,哪些无效。但是如果你没有得到你想要的结果,那么是时候进入下一步了:描述你想要的风格。

描述你想让AI做的写作类型

告诉AI“像Annie Dillard一样写作”或“像Tolkien一样写作”可以给你带来有趣的结果,但也很模糊。你想抓住Dillard或Tolkien的什么?是Dillard对自然的描述吗?是Tolkien关于矮人和魔法的故事吗?风格和内容之间有一条模糊的界限。AI必须猜测,这会使结果变得不那么有趣。

一个好的下一步是尝试具体化它。向它提出你想让它做什么的确切要求,并看看它是否能做到。这是一件值得尝试的事情,因为你得到的结果可能会更好,在这个过程中你会成为一个更好的作家。为了让你要求AI以特定的风格写作,你需要了解如何描述你想要的风格。你需要问问自己:我喜欢的这些作家都是因为什么?这个过程非常有价值。

这里有一个例子。当我想到我喜欢Annie Dillard的用词方式时,我立即想到了几件事:

Dillard用词生动,她有令人难以置信的隐喻和比喻能力,她对自然的描述是具体、美丽和深入的。

她的写作风格还有很多值得喜欢的地方,但对于这类事情,最好从简单的开始,并在其基础上构建。让我们看看使用这种描述会如何改变我们从AI获得的输出:

这样比较得体,但有点陈词滥调。但我想知道我们是否能让它更有趣。我想为我的提示对Dillard的写作做一个很好的描述。要做的一件事是看看评论家对她的评价,并将其纳入其中。

所以我找到了对她的书《写作生涯》的评论,并要求Bing对其总结:

以下是我得到的回复:

现在我可以将其中的一些内容重新纳入我的提示中,看看我得到了什么:

我真的很喜欢这个!“古典音乐响起,像一条优雅的丝带在空中交织”这句话太好了!我也喜欢“像雪花一样轻盈的梦”。它仍然有点沉重,对平凡的事情很敏感,但你可以看到,只要花一点时间在我们的提示上,就会完全改变我们从模型中得到的输出。

如果你还在寻找更多,下一步就是微调。

对一个作家的声音进行微调

尽可能接近某位作家的声音的方法是使用微调。

微调是一种通过在专门为特定任务设计的数据集上训练AI模型来使其适应特定任务的方法。这是一门很深的艺术。有很多变量可供选择,而人们对GPT-3等AI模型所了解的大部分内容似乎都是通过反复尝试获得的。(而且错误是昂贵的:微调需要花钱,一次微调要花10-50美元。)

这里有一些需要了解的基本情况。

当你对模型进行微调时,你给它提供提示和正确完成的例子。这是一种告诉模型的方式,“如果你看到这个提示,这里有一个好方法可以完成它的例子。”如果你一遍又一遍地向模型展示这样的例子,它最终会学会给出更接近你喜好的完成方式。

例如,如果你在一个提示完成对上进行微调,像这样:

提示:什么是最好的狗?

完成:伯尼杜德犬

下次你使用这个模型时,如果你问它最好的狗的种类,它就会更有可能吐出“伯尼杜德犬”。那么,问题是,我们如何微调这个模型,使它更有可能以我们最喜欢的作者的风格输出文字?

我尝试了很多不同的实验,试图让AI以特定作者的风格写作,而在一个空的提示上进行微调,完成几句作家的作品,似乎是最有用的。举例来说,你的微调可以是这样的:

提示

完成:“我以前有一只猫,一只喜好打架的汤姆,它会在半夜从我床边开着的窗户跳进来,落在我的胸口上。我半梦半醒。它会把脑袋贴在我的鼻子下面,发出呼噜声,散发着尿和血的臭味。有些晚上,它用前爪有力地揉捏着我赤裸的胸膛,弓着背,好像在磨爪子,又好像在做踩奶的动作,还有一些早晨,我白天醒来,发现我的身体上布满了血淋淋的爪印;我看起来好像被画上了玫瑰。”

这种类型的微调似乎教会了模型学会在任何提示下都倾向于特定作家的声音、风格和主题。这对我们的目的非常有用。

过程如下:

  1. 从你喜欢的作家那里找到大量的文本语料库;
  2. 将语料库分成几大块,每块有几个句子;
  3. 创建一个带有提示——完成对的文件,其中提示为空,完成部分为文本中的几句话;
  4. 对该文件进行8或16个时期的微调。

以下是如何做到这一点:

找到一个文本语料库

这一部分有点棘手,但对于任何没有版权的作者,你都可以使用古腾堡项目。对于其他作家,你通常可以在网上找到他们写过的东西,或者尝试购买和下载他们作品的无DRM数字版本。

有很多方法可以做到这一点,所以要有创意。但要确保合理使用和版权问题。

将文本语料库分成块并创建空的提示——完成对

这一步有点难度和技术性,但幸运的是,你实际上可以使用ChatGPT或Bing进行这个步骤。在结束时,你会需要一个看起来像这样的文件:

{“提示”:“”,“完成”:“[此处来自作者的文本]”}

{“提示”:“”,“完成”:“[此处来自作者的文本]”}

要获取此信息,请打开ChatGPT并询问:

请给我写一个Python脚本,读入一个文本文件,将其分成若干块,每块3句话,并将每块输出到一个有效的JSON文件中,格式如下:

{“提示”:“”,“完成”:“[第一块]”}

{“提示”:“”,“完成”:“[第二块]”}

……

拿出ChatGPT输出的脚本,并在上一步的文本语料库中运行它。

对JSON文件进行微调

既然有了JSON文件,现在是时候进行微调了。你应该参考OpenAI的微调指南,但基本步骤如下:

准备好数据

OpenAI有一个微调工具,它将检查JSON文件并对其进行修改以优化它。

运行以下命令准备数据:

openai tools fine_tunes.prepare_data -f <LOCAL_FILE>

完成这些后,就可以实际运行微调了。

运行微调

要启动微调,你可以运行以下命令:

openai api fine_tunes.create -t <TRAIN_FILE_ID_OR_PATH> -m <BASE_MODEL> --后缀"[命名你的型号]" --n_epochs 8

在OpenAI微调指南中,有两个重要的部分被遗漏了。第一,你应该设置你的后缀。这样就可以给你的模型起一个合理的名字,比如“我最喜欢的作家声音”,这样你以后就可以找到它了。第二,你应该将你的epoch值设置为8或16。Epoch是指模型在你提供的数据集上训练的次数。默认值是4次,但我的经验是,最佳点通常在8或16次左右。目前还不清楚为什么会这样,但8或16似乎让它足够专注于你给它的提示和完成度,以确保你想要的声音被传递出来。但这并不是太多的微调,你会过度拟合,结果会变得更糟。

使用你的模型

现在模型已经训练好了,是时候使用它了!我用Annie Dillard的作品训练了一个模型,结果如下:

这是另一个运行:

你会注意到,在这里,我并没有要求模型改写我的作品,只是以Dillard的方式继续它。我还没能让一个做改写的微调很好地发挥作用。但我确实认为这种类型的微调很好。它没有那么老套,它更多地体现了Dillard的风格和味道,对自然描述的非常生动且富有诗意。

最后

这就是:这些是让AI协助以你喜欢的作者的风格写作的基本知识。

在我们结束之前值得一提的是:你做这件事时需要小心。正如我在前面所写的那样,这些练习的目的不是帮助你创造深层次的复制品,而是帮助你找到自己的风格,并用你欣赏的作家的丰富性来改变它。

我建议你不要全盘接受这些模型的输出,而是将其作为自己工作的起点。如果你是在一个对抄袭标准很重视的环境中写作,那么你就必须通过抄袭检查器来检查这个输出,以确保它不会与别人的作品太接近。

但如果你认真对待上述问题,这里还有很大空间需要探索。你会得到很多奇怪和不稳定的输出。它会经常失败。

在不断的尝试和失败中,你会发现自己的声音。它将更丰富、更深刻,并带有我们读过和喜爱的作者的风格。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • 过去4小时全网爆仓1.16亿美元,其中多单爆仓9492.69万美元

    数据显示,过去4小时全网爆仓1.16亿美元,其中多单爆仓9492.69万美元,空单爆仓2092.77万美元,比特币爆仓4381.19万美元,以太坊爆仓1884.24万。

  • 过去1小时全网爆仓超7000万美元,主爆多单

    CoinGlass 数据显示,过去 1 小时全网爆仓 7004 万美元,主爆多单;过去 24 小时全网爆仓 2.41 亿美元,其中多单 1.60 亿美元,空单 8161 万美元。

  • 2024年Q1链上报告:USDT市值首次超过1000亿美元

    4月19日消息,区块链分析平台Artemis和区块链开发平台QuickNode发布2024年第一季度链上报告。其中USDT市值首次超过1000亿美元,第一季度处理的交易数量为USDC的10倍以上;稳定币在地址活动方面仍占据首位,DeFi交易次数方面超越稳定币;DeFi收益生成协议TVL从2023年第三季度的265亿美元增长至2024年第一季度的597亿美元;Web3游戏交易数量同比增长370%,是Web3行业中同比增长最高的类别;去中心化社交网络用户活动在一季度增加425%;SolanaNFT活动激增,Tensor活跃地址超越OpenSea;Web3投资总额相比2023年第四季度增长55%,其中种子轮投资环比增长53%。

  • 知情人士:CZ放弃对Binance FZE投票控制权是获得迪拜VASP许可证的最后一步

    币安近日获得了迪拜的全面加密货币许可证,这是该公司长期寻求的成果。条件是币安联合创始人赵长鹏(CZ)同意放弃在当地实体的投票控制权。币安首席执行官Richard Teng周四在一次采访中证实了这一消息。 迪拜虚拟资产监管局的登记簿显示,币安在当地的子公司Binance FZE自2023年年中以来已持有提供经纪交易商和交易所服务的所谓运营MVP许可证,这是获得VASP许可之前的过渡阶段。 知情人士透露,赵长鹏放弃对迪拜子公司Binance FZE的投票控制权是币安获得VASP许可证之前需要采取的最后一步。当地官员希望确保迪拜不会违背币安与美国当局达成的协议。

  • IMF报告:BTC已成为在金融不稳定的情况下保存财富的必要金融工具

    国际货币基金组织 (IMF) 的一份新报告显示,在全球金融不稳定的情况下, BTC日益成为跨境资金流动的关键渠道。 据国际货币基金组织称,金融监管严格的国家的居民正在转向比特币,以更自由地跨境转移资本。该报告强调了来自阿根廷和委内瑞拉等国家的大量交易量,这些国家的公民面临恶性通货膨胀和严格的金融管制。在这些地区比特币已成为保存财富和进入全球市场的必要金融工具,而不仅仅是投机性投资。 报告作者表示,比特币交易为高通胀国家的个人提供了一种稳定储蓄并以当地货币无法实现的方式参与全球商业的方式。

  • 4月19日早间要闻速递

    1.距离比特币区块奖励减半仅剩1天时间

  • Uniswap基金会:v4-core (PoolManager) 将冻结代码,预计今年晚些时候部署

    Uniswap 基金会发文称,Uniswap v4-core (PoolManager) 即将进入代码冻结期。v4 功能将被视为代码完整,不再新增功能、重新构建或重大变化(譬如删除挂钩权限、如何实施动态费用)。代码冻结后,开发者将能够实现挂钩、创建接口、落实头寸管理与其他外部合约、编写可用于生产的代码而无需强制重构。同时,代码冻结后,核心合约将进入审核阶段,v4 预计将于今年晚些时候部署。

  • 距离比特币区块奖励减半仅剩1天时间

    数据显示,距离比特币区块奖励减半还剩余152个区块,大约1天14分钟。

  • 发布1周年,一文理清ChatGPT时间线

    AI 元年,历史上的今天。

  • ChatGPT语音功能向所有用户免费开放

    OpenAI宣布,ChatGPT语音功能已向所有用户免费开放,用户可下载手机App使用该功能。