Cointime

扫码下载App
iOS & Android

了解Twitter的算法 | 揭秘Twitter排名的工作原理以及如何玩转Twitter

个人专家

原文链接:Understanding Twitter's Algorithm

本文作者:Tanay Jaipuria;编译:Cointime Freya

多年前,我曾在Facebook的News Feed从事算法工作,我们致力于让人们的News Feed更有相关性和吸引力。

多年来,随着Facebook、Instagram、TikTok和Twitter等都采用以推荐为动力的算法作为它们默认的“主页”界面,这些算法的重要性只增不减,这导致它们成为世界上大多数人消费大量内容的方式。

在最近的这场人工智能浪潮之前,可以说直到今天,推荐算法依旧是消费者互动的最常用和最重要的人工智能形式。

Twitter于上周早些时候公开了他们的算法,我仔细研究了一下。由于他们没有发布他们的模型训练数据,因此我无法完全重构它,但开源代码让我们了解了一切是如何运作的,以及他们在排名中的价值。

今天,我将介绍该算法的工作原理以及该算法中的一些有趣发现。

算法解释

从一个较高的水平来看,以下是Twitter算法的工作原理:

  1. 检索:Twitter的算法从多个来源中获取给定用户在给定会话中的约1,500个“最佳”推文。
  2. 排名:然后,使用机器学习模型对这些推文进行排名。
  3. 过滤:接下来,应用一些启发式方法和过滤器,来删除你已经屏蔽/静音/看过的内容。
  4. 混合:最后,将一些营销推文和其他Twitter单元(不是有机推文)混合在一起。

现在,让我们再深入探讨一下。

1. 检索

一个很普遍的问题可能是,Twitter是如何得到最初的推文列表的?

它使用两个来源:

  1. 网络内部来源(来自你关注的人的热门推文):网络内部推文的范围基本上来自于你还没有看到的、所有你关注的人的推文,它应用了一些轻量级的排名来确定哪些是最重要的。平均而言,Twitter提供的推文列表中有大约750条来自网络内部来源。
  2. 网络外部来源:尝试生成一个大约1,500条推文的初始列表。为了从你没有关注的人那里获得最好的Twitter推文,Twitter做了两件事:
  • 社交图谱:根据你的社交图谱中流行的推文生成的推文推荐(即,喜欢类似推文的人都在看什么)。大约30%的网络外部来源推文来自于此来源。
  • 主题嵌入:根据你喜欢的话题生成推文推荐,使用嵌入技术将所有用户和推文映射为集群/社区。Twitter将事物聚集到145,000个社区中,其中一些较大的社区如下所示。大约70%的网络外部来源推文来自于这个来源,随着时间的推移,我预计Twitter会更多地采用这种方法,而不是社交图谱的方法。

2. 排名

既然Twitter有了这1,500条推文,那么它是如何对这些推文进行排名,从而决定向你展示它们的顺序的?它使用了什么排名将推文减少到1,500条?

思考排名问题的一种方式是,给定一些目标函数,根据该函数对每条推文进行评分,并根据分数对它们进行排序。

对于社交网络来说,目标函数通常采取某种参与度的形式,而这正是Twitter的工作方式。

基本上,给定一个正在加载时间线的用户和一个推文X,Twitter会尝试预测用户对该推文的喜欢、评论、转发等操作的可能性。

然后,它会给这些操作分配一个权重,并将操作的可能性预测乘以所有操作中的权重,以获得特定用户的推文的总分,如下所示:

该模型预测的所有行为列表及其应用的权重如下:

请记住,这些是关于特定用户的给定推文的预测,而不是给定推文的实际值。它将基于以下几个因素:

  • 用户级别:这个用户是谁,他们倾向于参与哪些活动,他们参与活动的频率等等。
  • 推文级别:关于推文本身的因素(实际参与数据等)。
  • 用户关系:正在排名时间线的用户与正在排名推文的用户之间的先前历史记录——该用户是否倾向于喜欢/回复该用户的许多推文等等。

3. 过滤

对所有推文进行评分和排序后,我们现在根据上述确定的分数对约1,500条推文进行了排序。 最后一个阶段是过滤阶段,基本上是对列表进行了一些后处理。

它包括一些排除推文,以及一些降低特定推文排名的事项,例如:

  • 可见度过滤:删除你已经屏蔽和静音的人的推文。
  • 作者多样性:确保你的列表中没有太多来自同一用户的推文。
  • 内容平衡:平衡网络内部和网络外部的推文(我认为,除了增加网络内部的推文外,他们真的不应该这样做)。

经过这个阶段,你就有了大约1,000-1,200个有机推文,准备展示给用户。

4. 混合

混合阶段实际上并不是很有趣。它只是根据规则在这些有机推文之间加入某些广告和其他非有机推文,如两个广告之间的间隔应该是4条推文等。

在这个阶段之后,你将获得完整的推文列表。实质上,你现在拥有了完整的时间线,可以直接展示或“打印”给用户。

如何使你的推文排名靠前?

排名的魔力主要在于确定给定用户与给定推文交互的预测/可能性。如上所述,这些分数是基于:用户的因素、推文的因素以及用户与推文发布者关系的因素。

作为一个发布者,你无法控制任何可能看到你的推文的用户。但你可以控制推文的各个方面。那么,现在,我们来讨论一下这些方面。

1)推文因素

  • 发布图片和视频:可以获得2倍的提升;
  • 使用与你的关注者相同的语言发帖:使用与他们不同语言的推文会受到90%的惩罚;
  • 发布与热门话题相关的内容:可以获得1.1倍的提升;
  • 不要发布多个标签:这将受到40%的惩罚;
  • 不要发布拼写错误或未知单词:这将受到95%的惩罚。

2)推文参与度因素

推文的参与度越高,模型就越可能预测给定用户是否有可能参与其中。虽然在预测用户是否会进行操作的排名模型中,“回复”的权重更大,但在有关推文的实际推文级别数据中,“赞”似乎更重要。

  • 每个赞可以获得30分的提升;
  • 每条转发都会获得20分的提升;
  • 每个回复可以得到1分的提升。

同样地,应避免在你的推文上出现负面的互动(不与推文/用户互动、举报/屏蔽、取消关注),因为这些会降低推文级别分数。

最后,推文的分数会随着时间的推移而下降,从而导致预测值降低,被展示的可能性也会降低。具体而言:推文的半衰期为6个小时,这意味着每6个小时,基础分数会减少50%。

3)用户因素

最后,你还可以在用户层面采取一些操作,以便让你的推文排名靠前:

a. 订阅 Twitter Blue:Blue用户可以在关注他们的人中获得4倍的提升,在不关注他们的人中得到2倍的提升。

b. 你的关注数量不要超过你的粉丝数量:如果你的关注者/关注率很低,你会受到惩罚。

c. 请注意,你的所有操作都将用于计算TweepCred:Twitter为每个用户提供了一个类似于Google PageRank的Tweepcred的程序,它为每个用户分配0到100的分数。如果你的分数很高,则更有可能展示更多的推文。虽然还缺少一些细节,但它考虑了年龄、安全状态、关注者和关注度以及过去的参与数据,尤其是诸如你的很多推文是否被举报等因素。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • Hundre Finance攻击者已从Curve中取出了价值162.2 ETH的加密资产

    据PeckShield监测,Hundre Finance攻击者从Curve中取出了78.4万枚3Crv并将其换成了273枚ETH。此外,他们还交换了305.6枚WOO、39枚PAXG、20万枚FRAX和10万枚DAI,总计162.2枚ETH,Hundre Finance攻击者从Optimism到Ethereum桥接了1,034枚ETH(217万美元),842.8K枚DAI,111万枚USDT,127万枚USDC,457.3枚FRAX。然后,他们将总计48万枚USDC换成了142.6枚WETH、306枚WOO和39枚PAXG。他们还将111万枚USDT换成了500.3千美元的DAI和613.8千美元的FRAX。此外,2023年4月15日,约786,000美元的USDC被添加到Curve3Pool中。

  • ZeroLend宣布开放ZERO空投申领

    ZeroLend 宣布已在 Linea 上开放 ZERO 空投申领。据悉,用户累积的 Zero Gravity 积分和 earlyZERO(1 earlyZERO=1 ZERO)将自动转换为 ZERO 并显示在奖励页面上。ZeroLend 将向社区分配代币供应量的 18%,其中 5%的供应量将分配给 Zero Gravity 参与者,13%将分配给 earlyZERO 持有者。ZeroLend 表示,将在接近 TGE 时进行快照。ZERO 质押者将获得投票权、质押奖励以及根据其投票权获得其他协议未来潜在的空投。如果用户质押时间超过 1 年,可以获得 5%-20%的质押奖金。

  • 阿根廷众议院通过加密货币税收规范化法案

    阿根廷众议院通过加密货币税收规范化法案,旨在推进一系列政府重要改革。该法案引入了将以前未申报的加密货币资产正规化的可能性,最高可达 10 万美元,而无需支付政府征收的费用。但如果加密货币资产的价值超过该限额,政府将根据纳税人的声明日期适用优惠税率。

  • Fantom上的GNUS遭到攻击,损失约127万美元

    据Beosin监测,Fantom上的GNUS遭到攻击,损失约127万美元。 GNUS在X平台上称,由于最近的漏洞,黑客能够在Fantom上铸造虚假的GNUS代币,通过Axelar Bridge转移到以太坊和Polygon,并出售到现有的流动性池中。我们将在漏洞利用之前的区块上进行快照。 为了确保公平,请不要在利用后购买GNUS代币,因为我们将发行新代币。

  • 比特币L2网络Mezo TVL突破1亿美元

    比特币L2网络Mezo在X平台发文表示,目前项目TVL已突破1亿美元。此前消息,Mezo开发商Thesis完成2100万美元A轮融资,PanteraCapital领投、Multicoin、HackVC、Draper Associates等参投。该项目主要通过“HODL证明(Proofof HODL)”积分计划利用持币者的闲置比特币,存放时间越长,贡献者的“HODL得分乘数”越多。

  • 潘渡金融集团获得首轮数千万港元战略股权投资,Longling Capital领投

    潘渡金融集团宣布获得隆领投资领投的数千万港元战略股权投资。潘渡金融集团表示,公司计划将新注入的资金用于关键增长领域,包括市场扩张、创新产品开发、关键人才引进以及技术升级,旨在通过这些战略举措加速布局属于虚拟资产领域的时代机遇。目前集团旗下资管规模已达五亿美金。 潘渡金融集团旗下子公司潘渡资产2022年在苏黎世设立总部并在瑞交所发行了Pando 6 现货虚拟资产基金(比特币/以太坊现货ETPs);潘渡金融集团另一旗下子公司潘渡有限公司在香港获得了由证监会颁发第 1 类(证券交易)、第 4 类(就证券提供意见)和第 9 类(提供资产管理)牌照以及公募基金资质,获批准管理投資超過10%於虛擬資產的投資組合並发行了数支优秀业绩主动管理ETF产品。

  • 香港金管局发起“将虚拟银行更名为持牌数字银行”的行业咨询

    香港虚拟银行上周公布2023年年报,八家虚银去年共亏损约29.9亿元,较2022年全行亏损约34 亿元,收窄约12%,针对近年不时有反映“虚拟”带来不真实的感觉,香港金管局已向8家虚拟银行、香港银行公会、香港有限制牌照银行及接受存款公司公会启动更名咨询,拟将虚拟银行改命名为持牌数字银行,为期一个月。据悉,在亚洲区内,各地同类银行名称各有不同,韩国、新加坡以digital bank(数码/数字银行)名义发牌,当中新加坡再细分数字全面银行(DFB)和数字批发银行(DWB) 。

  • 俄罗斯国家杜马金融市场委员会主席:不支持完全禁止加密货币在俄罗斯流通

    俄罗斯国家杜马金融市场委员会主席Anton Gorelkin表示,他并不支持完全禁止加密货币在俄罗斯流通,他在Telegram上发帖解释说,这一限制并不是为了禁止所有加密货币的使用,而是为了在俄罗斯的法律框架内规范加密货币兑换平台的建立。Anton Gorelkin还认为,俄罗斯合法加密基础设施的建立受到地缘政治现实的影响。这需要考虑与国际关系相关的因素。他继续补充说,允许这种基础设施可能会使俄罗斯企业受到西方制裁。 此外,Anton Gorelkin还指出,未来可能会取消这一限制,并表示用户仍然可以像以前一样使用外国加密货币交易所和场外交易服务。不过,对莫斯科许多场外加密货币服务的影响尚不确定。

  • 以太坊L2 TVL为399.8亿美元,其中Base TVL为55.7亿美元

    L2BEAT 数据显示,当前以太坊 Layer2 TVL 为 399.8 亿美元,7 日增幅为 0.69%。其中,TVL 前五分别为:

  • 香港交易所:一季度比特币及以太币期货ETF总市值达12亿港元,资金流入5.92亿港元

    据香港交易所证券产品发展主管罗博仁(Brian Roberts)披露数据显示,继2022年10月31日证监会批准虚拟资产期货ETF在香港公开发售后,三只投资于比特币及以太 币期货的虚拟资产期货ETF在香港交易所上市,该批ETF自推出以来备受投资者青睐交投畅旺,日均成交量由2023年的890万港元增加至2024年第一季的5,130万港元 ,同时亦吸引了5.29亿港元的资金流入。 截至 2024年3月底总市值达到12亿港元,按年增长255%。