Cointime

扫码下载App
iOS & Android

了解Twitter的算法 | 揭秘Twitter排名的工作原理以及如何玩转Twitter

个人专家

原文链接:Understanding Twitter's Algorithm

本文作者:Tanay Jaipuria;编译:Cointime Freya

多年前,我曾在Facebook的News Feed从事算法工作,我们致力于让人们的News Feed更有相关性和吸引力。

多年来,随着Facebook、Instagram、TikTok和Twitter等都采用以推荐为动力的算法作为它们默认的“主页”界面,这些算法的重要性只增不减,这导致它们成为世界上大多数人消费大量内容的方式。

在最近的这场人工智能浪潮之前,可以说直到今天,推荐算法依旧是消费者互动的最常用和最重要的人工智能形式。

Twitter于上周早些时候公开了他们的算法,我仔细研究了一下。由于他们没有发布他们的模型训练数据,因此我无法完全重构它,但开源代码让我们了解了一切是如何运作的,以及他们在排名中的价值。

今天,我将介绍该算法的工作原理以及该算法中的一些有趣发现。

算法解释

从一个较高的水平来看,以下是Twitter算法的工作原理:

  1. 检索:Twitter的算法从多个来源中获取给定用户在给定会话中的约1,500个“最佳”推文。
  2. 排名:然后,使用机器学习模型对这些推文进行排名。
  3. 过滤:接下来,应用一些启发式方法和过滤器,来删除你已经屏蔽/静音/看过的内容。
  4. 混合:最后,将一些营销推文和其他Twitter单元(不是有机推文)混合在一起。

现在,让我们再深入探讨一下。

1. 检索

一个很普遍的问题可能是,Twitter是如何得到最初的推文列表的?

它使用两个来源:

  1. 网络内部来源(来自你关注的人的热门推文):网络内部推文的范围基本上来自于你还没有看到的、所有你关注的人的推文,它应用了一些轻量级的排名来确定哪些是最重要的。平均而言,Twitter提供的推文列表中有大约750条来自网络内部来源。
  2. 网络外部来源:尝试生成一个大约1,500条推文的初始列表。为了从你没有关注的人那里获得最好的Twitter推文,Twitter做了两件事:
  • 社交图谱:根据你的社交图谱中流行的推文生成的推文推荐(即,喜欢类似推文的人都在看什么)。大约30%的网络外部来源推文来自于此来源。
  • 主题嵌入:根据你喜欢的话题生成推文推荐,使用嵌入技术将所有用户和推文映射为集群/社区。Twitter将事物聚集到145,000个社区中,其中一些较大的社区如下所示。大约70%的网络外部来源推文来自于这个来源,随着时间的推移,我预计Twitter会更多地采用这种方法,而不是社交图谱的方法。

2. 排名

既然Twitter有了这1,500条推文,那么它是如何对这些推文进行排名,从而决定向你展示它们的顺序的?它使用了什么排名将推文减少到1,500条?

思考排名问题的一种方式是,给定一些目标函数,根据该函数对每条推文进行评分,并根据分数对它们进行排序。

对于社交网络来说,目标函数通常采取某种参与度的形式,而这正是Twitter的工作方式。

基本上,给定一个正在加载时间线的用户和一个推文X,Twitter会尝试预测用户对该推文的喜欢、评论、转发等操作的可能性。

然后,它会给这些操作分配一个权重,并将操作的可能性预测乘以所有操作中的权重,以获得特定用户的推文的总分,如下所示:

该模型预测的所有行为列表及其应用的权重如下:

请记住,这些是关于特定用户的给定推文的预测,而不是给定推文的实际值。它将基于以下几个因素:

  • 用户级别:这个用户是谁,他们倾向于参与哪些活动,他们参与活动的频率等等。
  • 推文级别:关于推文本身的因素(实际参与数据等)。
  • 用户关系:正在排名时间线的用户与正在排名推文的用户之间的先前历史记录——该用户是否倾向于喜欢/回复该用户的许多推文等等。

3. 过滤

对所有推文进行评分和排序后,我们现在根据上述确定的分数对约1,500条推文进行了排序。 最后一个阶段是过滤阶段,基本上是对列表进行了一些后处理。

它包括一些排除推文,以及一些降低特定推文排名的事项,例如:

  • 可见度过滤:删除你已经屏蔽和静音的人的推文。
  • 作者多样性:确保你的列表中没有太多来自同一用户的推文。
  • 内容平衡:平衡网络内部和网络外部的推文(我认为,除了增加网络内部的推文外,他们真的不应该这样做)。

经过这个阶段,你就有了大约1,000-1,200个有机推文,准备展示给用户。

4. 混合

混合阶段实际上并不是很有趣。它只是根据规则在这些有机推文之间加入某些广告和其他非有机推文,如两个广告之间的间隔应该是4条推文等。

在这个阶段之后,你将获得完整的推文列表。实质上,你现在拥有了完整的时间线,可以直接展示或“打印”给用户。

如何使你的推文排名靠前?

排名的魔力主要在于确定给定用户与给定推文交互的预测/可能性。如上所述,这些分数是基于:用户的因素、推文的因素以及用户与推文发布者关系的因素。

作为一个发布者,你无法控制任何可能看到你的推文的用户。但你可以控制推文的各个方面。那么,现在,我们来讨论一下这些方面。

1)推文因素

  • 发布图片和视频:可以获得2倍的提升;
  • 使用与你的关注者相同的语言发帖:使用与他们不同语言的推文会受到90%的惩罚;
  • 发布与热门话题相关的内容:可以获得1.1倍的提升;
  • 不要发布多个标签:这将受到40%的惩罚;
  • 不要发布拼写错误或未知单词:这将受到95%的惩罚。

2)推文参与度因素

推文的参与度越高,模型就越可能预测给定用户是否有可能参与其中。虽然在预测用户是否会进行操作的排名模型中,“回复”的权重更大,但在有关推文的实际推文级别数据中,“赞”似乎更重要。

  • 每个赞可以获得30分的提升;
  • 每条转发都会获得20分的提升;
  • 每个回复可以得到1分的提升。

同样地,应避免在你的推文上出现负面的互动(不与推文/用户互动、举报/屏蔽、取消关注),因为这些会降低推文级别分数。

最后,推文的分数会随着时间的推移而下降,从而导致预测值降低,被展示的可能性也会降低。具体而言:推文的半衰期为6个小时,这意味着每6个小时,基础分数会减少50%。

3)用户因素

最后,你还可以在用户层面采取一些操作,以便让你的推文排名靠前:

a. 订阅 Twitter Blue:Blue用户可以在关注他们的人中获得4倍的提升,在不关注他们的人中得到2倍的提升。

b. 你的关注数量不要超过你的粉丝数量:如果你的关注者/关注率很低,你会受到惩罚。

c. 请注意,你的所有操作都将用于计算TweepCred:Twitter为每个用户提供了一个类似于Google PageRank的Tweepcred的程序,它为每个用户分配0到100的分数。如果你的分数很高,则更有可能展示更多的推文。虽然还缺少一些细节,但它考虑了年龄、安全状态、关注者和关注度以及过去的参与数据,尤其是诸如你的很多推文是否被举报等因素。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • WSJ:GPU 云算力平台 CoreWeave 筹集 75 亿美元以推动人工智能计算

    据《华尔街日报》报道,由英伟达支持的人工智能云计算初创公司 CoreWeave 从百仕通、凯雷集团和贝莱德等投资者处筹集了 75 亿美元,这笔融资是有史以来最大的私人债务融资之一。两周前,CoreWeave 刚刚完成了一轮 11 亿美元的股权融资,估值为 190 亿美元。截至去年年底,该公司拥有 14 个数据中心,并计划到今年年底将其数量增加一倍,达到 28 个数据中心。

  • 币安与台湾执法部门联合侦破一起诈骗案,涉案金额达620万美元。

    币安金融犯罪合规部(FCC)与台湾法务部调查局和台北地检署联手打击一起大规模洗钱案,侦破了一起价值 2 亿新台币(合 620 万美元)的虚拟资产诈骗案。正如官方声明中透露的那样,此次行动为犯罪分子通过加密货币交易清洗非法所得提供了便利。骗子使用伪造的汇款文件、伪造的身份信息,并篡改客户通信记录以逃避执法部门的侦查。(Cointelegraph)

  • 土耳其提议使加密立法与国际标准保持一致

    土耳其执政党于 5 月 16 日向议会提交了加密法案草案。该法案重点关注加密服务提供商的许可和注册,并与国际标准保持一致。 该法案草案旨在更新现有法律,以全面管理新兴的加密货币市场。该法案的重点领域包括消费者保护、平台透明度以及遵守金融法规。拟议的立法旨在监管该行业的加密货币交易平台和其他服务提供商,要求他们获得土耳其资本市场委员会的许可。

  • 香港金管局:中交建工4家银行为香港数字人民币钱包运营机构

    香港金管局公布参与数字人民币香港跨境试点的机构,包括 : 一、数字人民币钱包运营机构为: 1. 中国银行、2. 交通银行、3. 中国建设银行、4. 中国工商银行。 二、提供“转数快”增值的香港银行支援由人民币户口增值为: 1. 中信银行(国际)有限公司、2. 创兴银行有限公司、3. 大新银行有限公司、4. 星展银行(香港)有限公司、5. 富邦银行(香港)有限公司、6. 众安银行有限公司。 三、提供即时港元兑人民币增值服务支援由人民币和港元户口增值为: 1. 天星银行有限公司、2. 中国银行(香港)有限公司 、3. 交通银行(香港)有限公司、4. 东亚银行有限公司、5. 中国建设银行(亚洲)股份有限公司、6. 招商永隆银行有限公司、7. 富融银行有限公司、8. 恒生银行有限公司、9. 香港上海滙丰银行有限公司、10. 中国工商银行(亚洲)有限公司、11. 渣打银行(香港)有限公司。

  • 过去24小时全网爆仓1.21亿美元,多单爆仓8292万美元

    据 Coinglass 数据显示,过去 24 小时全网爆仓 1.21 亿美元,其中多单爆仓 8292 万美元,空单爆仓 3832 万美元。比特币爆仓约 3497 万美元,以太坊爆仓约 2035 万美元。

  • 名义价值12亿美元的BTC期权和9.3亿美元的ETH期权即将到期

    Greeks.live数据显示,5月17日期权交割数据:1.8万张BTC期权即将到期,Put Call Ratio为0.63,最大痛点63000美元,名义价值12亿美元。 32万张ETH期权即将到期,Put Call Ratio为0.28,最大痛点3000美元,名义价值9.3亿美元。 Greeks.live表示,本周受美股Meme风潮的激励,BTC ETF也收获了明显的资金流入,BTC大幅上涨突破65000美元,但Meme以外的加密市场较为弱势,成交量继续下跌,BTC和ETH的期权数据分化就可以体现这一点。 从大宗交易和市场交易结构看,各主要期限IV下降趋势结束进入横盘,目前下跌的空间不大。BTC多空较为均衡,而ETH币价弱势导致市场信心持续减弱,卖出看涨成为绝对主力成交。

  • Binance协助中国台湾执法部门破获涉案近2亿新台币的重大虚拟资产案件

    5月17日消息,Binance发布公告称,近日,Binance金融犯罪合规部(FCC)联合中国台湾司法部调查局破获一起涉及虚拟资产洗钱的重大刑事案件,涉案金额近新台币2亿元。Binance在整个案件中为台湾犯罪斗士提供支持,提供关键情报和援助,在推进调查方面发挥了关键作用。 除了业务协助外,Binance还在台湾推出了一系列执法培训计划,与十多个不同单位合作,涉及千多名执法人员,这些努力都得到了非常积极的反馈。

  • Tether CEO:Tron Network上增发10亿枚USDT,已授权未发行

    5月17日,Tether CEO Paolo Ardoino表示,已于北京时间今日凌晨在Tron Network上增发10亿枚USDT,已授权未发行,这意味着该金额将用作下一期发行请求和链交换的库存。

  • 链上索引服务Subsquid完成总额1750万美元融资,DFG等参投

    链上索引服务Subsquid宣布通过CoinList社区销售完成630万美元融资,截至目前其融资总额已达到1750万美元,DFG、Hypersphere、Zee Prime、Blockchange和Lattice参投,据悉其原生代币SQD拟于本周五上市,而Subsquid SDK已与Google BigQuery集成,允许开发人员使用Google的技术来分析区块链数据,继而降低业内区块链和开发者社区大规模部署的数据成本。

  • Optimism 2024 Q1报告:EIP-4844的实施使L1提交成本降低了99%

    Optimism发布2024 Q1报告,其中日活地址达到89,000个(环比增长23%),每日交易量增至470,000笔(环比增长39%)。这些指标均略低于2023年第三季度的历史高点。 OP主网的稳定币市值达到8.09亿美元(环比增长32%)。过去六个月,USDT在OP主网上的市值大幅飙升,达到5.12亿美元(环比增长64%),占总市值的63%。 EIP-4844的实施使L1提交成本降低了99%,将平均每日成本从前几周的420,000美元减少到830美元。2024年Q1 OP主网的链上利润为200万美元(环比增长14%)。