当前位置：首页 > 每日看点 > 正文内容

微博和知乎中的 feed 流是如何实现的？

卡卷网8个月前 (05-03)每日看点173

Twitter 架构演进

Twitter 的两个主要业务是：

发推文: 用户可以向其粉丝发布新消息（平均 4.6k 请求 / 秒，峰值超过 12k 请求 / 秒）。(2012年[2])
看推文: 用户可以查阅他们关注的人发布的推文（300k 请求 / 秒）。

1. 读扩散

读扩散处理每秒 12K 次发推文还是很简单的, Twitter 的挑战主要是 300K 查看推文请求.

看推文时，首先查找关注的所有人，查询这些被关注用户发布的推文, 并按时间顺序合并

SQL 伪代码:

SELECT * FROM posts WHERE user_id IN (SELECT user_id FROM follows WHERE follower_id = :user_id) ORDER BY created_at DESC

微博和知乎中的 feed 流是如何实现的？第1张

[1]

2. 写扩散

发推文时: 查找所有粉丝, 写入所有粉丝的 timeline 中
看推文时: 读取 timeline

微博和知乎中的 feed 流是如何实现的？第2张

3. 演进

推特第一版使用读扩散, 系统很难承受 300K看推文的负载
推特第二版使用写扩散, 一条推文平均推送 75 个粉丝, 所以 timeline 的写压力大约 345K, 读压力是 300K

写扩散看起来很美好, 但是隐患是一些用户有超过 3000 万的粉丝, 如果该用户发推文, 那么写入 3000 万用户的 timeline (而 Twitter 尝试在 5 秒内向粉丝发送推文)

最终: Twitter 已经稳健地实现了写扩散，逐步转向了读写混合模式

Twitter 在技术分享[2]中没有透露实现细节, 下面是我的架构设计

读写混合模式架构设计

1. 名词解释

粉丝收件箱/timeline: 关注页的信息流(微博、朋友圈).
发件箱: 作者发布的内容
写扩散: 作者发布消息后, 立即推送给粉丝的 "粉丝收件箱"
读扩散: 作者发布消息后, 不推送给粉丝. 粉丝获取信息流时, 遍历关注列表中的作者, 拉取 "发件箱" 中的新内容.
大V: 粉丝数超过 10 万的用户定义为大V, 大V 不可降级为小V.

2. 作者发布内容时

小V : 采用写扩散模式, 写入 所有粉丝 的 "粉丝收件箱"
大V : 仅写入 活跃粉丝 的 "粉丝收件箱", 离线粉丝通过读扩散获取

流程图:

微博和知乎中的 feed 流是如何实现的？第3张

2.1. 什么是 "活跃粉丝"?

粉丝登录时, 查询自己关注的所有大 V, 注册到当天的 "活跃粉丝" 中
大 V 发内容时, 查今天的 "活跃粉丝" 和昨天的 "活跃粉丝",合并 2 个结果作为大 V 活跃粉丝 (1-2天内登录的都是活跃粉丝)

<---- 昨日 ---->|<---- 今日 ----> [ 活跃粉丝 ][ 活跃粉丝 ] <-------------------------> 合并后的大V活跃粉丝 (1-2天内登录)

好处:

大 V 查询对关系表的压力降低到 0 QPS
减少大 V 写扩散对 "粉丝收件箱" 的压力

1-2 天登录的用户有点多, 如何减少活跃粉丝量?

缩短时间, 比如 10-20 分钟存在心跳的用户

3. 粉丝登录时

查询用户关注的大V列表
查询"发件箱"
写入新内容到"粉丝收件箱"
计算红点

流程图:

微博和知乎中的 feed 流是如何实现的？第4张

4. 粉丝读取内容时

查询 "粉丝收件箱"

"粉丝收件箱" 数据结构 (Redis ZSet):

# Score: 内容更新时间戳 # Value: 内容ID content_id_1 -> 1704240000 (对应 2024-01-03 00:00:00) content_id_2 -> 1704153600 (对应 2024-01-02 00:00:00) ...

5. 粉丝关注作者时

主线逻辑:

查询作者最近发布内容(大V有缓存), 写入 "粉丝收件箱" (100ms)

分支逻辑:

判断作者是否大V: (1ms)
如果是:

修改粉丝 followBigV 表 (1ms)

如果不是, 且粉丝数不超 10 万:

结束

如果不是, 且粉丝数超 10 万:

该作者标记为大V (1ms)
异步:

查询作者所有粉丝 (10s)
为每个粉丝 followBigV (关注的大V) 添加此新晋大V (100S)

微博和知乎中的 feed 流是如何实现的？第5张

6. 粉丝取消关注时

主线逻辑:

从粉丝收件箱删除作者内容 (大V 有缓存) (100ms)
如果是大 V, 从粉丝关注的大V列表删除作者

微博和知乎中的 feed 流是如何实现的？第6张

详细设计

1. 大V列表如何存储?

每个用户关注的大V列表, 因为数量有限, 存储在单个 key 中
预估: 用户关注 100 个大V, 该 key 约为 1KB

followBigV 数据结构:

{ // 用户关注的大 V ID 列表 "bigVIds": ["10001", "10002", "10003", "10004", "10005"], // 上次登录刷新时间 "lastRefreshTime": "2024-01-01 00:00:00" }

2. 如何降低"粉丝收件箱"的存储成本?

采用冷热数据分离.

冷备:

将 1 个月未活跃用户的 "粉丝收件箱" 数据从 Redis 迁移到 DB, 标记冷备.
存在冷备标记 cold:<UserID> -> '1' 表示用户数据被冷备

用户再次登录加载冷备:

检查冷备标记.
若标记存在则从 DB 读取数据重新加载到 Redis

用户登录流程图:

微博和知乎中的 feed 流是如何实现的？第7张

3. "粉丝收件箱"的写性能优化

采用批量写入 (Pipeline) 能带来 1-2 个数量级的提升 (Redis 单机可达 200-300 万 QPS)

参考

[1] DDIA: http://ddia.vonng.com/#/ch1

[2] Twitter Timelines at Scale https://www.infoq.com/presentations/Twitter-Timeline-Scalability/

扫描二维码推送至手机访问。

本文链接：https://www.kajuan.net/ttnews/2025/05/12838.html

分享给朋友：

返回列表

上一篇：国内的AI，哪个能对数据进行处理和分析？

下一篇：豆包软件功能强大吗？

在 Istio、Linkerd 和 Cilium 之间，哪种服务网格在性能上表现最佳？

在讨论服务网格之前，先理解一下为什么我们需要它。现代微服务架构意味着将应用拆分为多个小型、独立的服务，这些服务可以独立开发、部署和扩展。然而，服务之间的通信和管理成了巨大的挑战，例如如何保证安全的通信、负载均衡、监控与可观测性等。服务网格...

你每天用来涨知识的手机应用程序有哪些？

经过深度使用和测评，从100个APP中选出的这35个超实用的app，每一个都是最硬核最有料的涨知识神器！每天打开看看，能让你提神醒脑，眼界大开，成为朋友聚会上的话题王者！双击屏幕取走哦~先放上全部APP目录，有新闻资讯类、英语学习类、读书类...

国内AI大模型已近80个，哪个最有前途？

题主说错了，不是80个，是168个！虽然“最有前途”不好说，但是我可以帮题主排除一些错误方向：开源大模型一定比闭源的有前途吗？参数量大的模型一定就比小模型有前途吗？榜单排名高的大模型一定更有前途吗？2024年3月更新，243个大模型中有哪几...

本专业是电气的，请问入门plc 必须要从电工接线开始吗，我怕被公司骗了，想请教各位?

开关接线图PART 01一开单控开关接线图二三开连体单控开关接线图四开连体单控开关接线图一开五孔单控插座接线图二开五孔单控插座接线图一开双控开关接线图二三开单控开关接线图四开单控开关接线图一开五孔单控插座接线图二三开双控开关接线图一开多控开...

为什么说，运维是IT行业里技术含量最低的？

我是有幸从学校出来后转行进入IT运维这个行业的，有在上海这个行业幸跌爬滚打5年，目前2024年失业中......（老实说，这几年接触的人和事、有些厌烦这个行业了）以一个过来人的角度讲讲这个岗位的心酸和无奈，也说说为什么...

做一名网络工程师是什么体验？

过地铁火车安检时，经常会被要求开包检查。。。同时，电脑包的重量普遍比较高。除了很多打工人必备的笔记本电脑之外，网络工程师还会随身携带部分工具。。。01.网线（长度不一定，根据工作要求随时被使用。。。）没有网线无法开展工作。02.串口线，ty...