马斯克开源X推荐算法 透明度再升级!马斯克再次开源了X推荐算法。X工程团队在X平台上宣布,正式开源X推荐算法,该算法为X上的“为你推荐”信息流提供支持。它结合了用户关注账户的内容和通过机器学习检索发现的内容,并使用基于Grok的Transformer模型对所有内容进行排名。这个算法采用了与Grok相同的Transformer架构。

X的推荐算法负责生成用户在主界面看到的“为你推荐”内容。它从两个主要来源获取候选帖子:用户关注的账号和其他平台上的帖子。这些候选内容随后被统一处理、过滤并按相关性排序。

算法首先从两类来源抓取候选内容,目标是找出可能相关的帖子。系统会自动去除低质量、重复、违规或不合适的内容,确保最终排序时只处理有价值的候选内容。此次开源的算法核心是使用一个Grok-based Transformer模型对每条候选帖子进行评分。根据用户的历史行为(如点赞、回复、转发、点击等)预测每种行为的概率,然后将这些行为概率加权组合成一个综合得分,得分越高的帖子越有可能被推荐给用户。

这不是马斯克第一次开源X推荐算法。早在2023年3月31日,马斯克已将Twitter部分源代码正式开源,其中包括在用户时间线中推荐推文的算法。当时该项目在GitHub上收获了10k+颗Star。马斯克表示希望独立第三方能够以合理的准确性确定Twitter可能向用户展示的内容。

如今距离初次开源X算法已经过去了近三年的时间。马斯克在X上发帖称,将在7天内将新的X算法开源,包括用于确定向用户推荐哪些自然搜索内容和广告内容的所有代码。此流程将每4周重复一次,并附有详细的开发者说明,以帮助用户了解发生了哪些变化。

外界对马斯克再次开源算法的反应并不完全是技术理想主义,而是现实压力。过去一年里,X因其内容分发机制屡次陷入争议,被批评在算法层面偏袒右翼观点。去年发布的一份研究报告指出,X的推荐系统在政治内容传播上出现了明显的新偏见。在这种背景下,马斯克强调算法透明性很难被简单解读为一次纯粹的技术决策。

X推荐算法开源后,有用户总结了五点推荐机制的关键点: - 回复评论对曝光率有很大影响。 - 链接会降低曝光率,应放在个人简介或置顶帖里。 - 观看时长至关重要,视频/帖子需要吸引用户停留。 - 坚守细分领域,偏离领域会影响分销渠道。 - 屏蔽或默不作声会大幅降低分数,要有争议但不要令人讨厌。

尽管架构开源,但还有一些内容未公开,如权重参数、隐藏模型权重和训练数据。对于普通用户而言,更高的透明度可以解释为什么有些帖子能获得曝光而另一些则无人问津,并使研究人员能够研究平台如何对内容进行排名。
推荐系统是互联网巨头商业模式的重要组成部分。亚马逊、Netflix、YouTube和Meta等公司都依赖推荐系统来推动购买、观看时长和商业转化。然而,传统推荐系统面临着工程复杂度极高的问题。大型语言模型的出现为推荐系统提供了一条新的可能路径,简化了工程复杂度并带来了交叉学习的潜力。
专家傅聪认为,X的这套推荐系统依然遵循传统的多阶段漏斗筛选架构,grok没有参与中间过程,只是作为排序模型。他指出,实现每日处理上亿条内容并进行实时多模态理解需要极其充足的GPU算力和高并发处理引擎。此外,成本效益方面,Grok方法需要大量计算资源,这使得这种方式目前只属于极少数平台。他还提到,大语言模型有自己的偏好,可能会构建新的信息茧房。开源代码对工业交流有一定参考意义,但对学术研究价值不大。