设计Twitter时间线和搜索功能

设计Twitter时间线和搜索功能

设计 facebook feed 和 设计 facebook search是相同的问题

第一步:定义用例和约束

定义问题的需求和范围,询问问题去声明用例和约束,讨论假设
ps: 没有一个面试官会展示详细的问题,我们需要定义一些用例和约束

用例:

我们定义问题的范围,只是去处理以下Use Cases

  1. User 发布一个 tweet
  • Service push tweets 给 followers, 发送 push notification 和 email
  1. User 查看这个 user 的 timeline (行为发生来自 user)
  2. User 查看 home 的 timeline (行为发生来自 User follow的人)
  3. User 搜搜关键词
  4. Service 有高可用

问题域外

  1. Service 推送 tweets 到 Twitter Firehose 和其他的 stream
  2. Service 拉取 tweet 基于User的可视化设置
  • 隐藏 @reply 如果这个 User 不能回复被这个人 follow 的人
  • 添加 ‘hide retweets’ 设置
  1. Analystics

约束和假设:

状态假设

  1. 常用
  • Traffic 最终不被分发出去
  • 发布一个 tweet 应该是很快的
  • 发广播给所有的 followers 应该是快的,除非你有数百万的 followers
  • 1000 万活跃用户
  • 5000 万 tweet 每天 或者 150 亿 tweet 每个月
    每条推文的平均传播量为10次
    50 亿个tweet被传播一天
    1500亿tweet被传播每个月
  • 2500 亿个读请求每个月
  • 100 亿搜索每个月
  1. 时间线
  • 展示这个时间线应该很快
  • Twitter是读多写少 (优化为了快速的tweet的Read)
  • Ingesting tweets是写重的
  1. 搜索
  • 搜索应该很快
  • 搜索是读重的

计算使用量:

和面试官说明你是否需要进行粗略使用量估算

  1. 每 tweet 尺寸:
  • tweet_id - 8 bytes
  • user_id - 32 bytes
  • text - 140 bytes
  • media - 10 kb average
  • Total: ~10kb
  1. 每个月有150 TB的新 tweet 内容
  • 10 kb/tweet * 5000 万 tweet / day * 30 天 / 月
  • 三年内会有5.4 PB的新 tweet
  1. 10w read请求 / S
  • 2500 亿读请求每个月 * (400 请求每秒 / 10亿 请求每个月)
  1. 6000 tweets / s
  • 150 亿tweet每个月 * (400 请求每秒 / 10w 请求每个月)
  1. 6w 个 tweet 被广播 / 每秒
  • 1500 亿 tweet 每个月 * (400 请求每秒 / 10 w请求每个月)
  1. 4000 搜索请求每秒
  • 100亿搜索每个月 * (400 请求每秒 / 10 亿请求每个月)

转换规则:
250 万秒每个月
1 request/s = 250 万 request/ 月
40 request/s = 1000 万 request/月
400 request/s = 10 亿 request/月

高视角组件设计

描绘所有重要组件的 high level design

Twitter设计

设计核心组件

Case01: User post a tweet

我们可以存储用户自己的tweet来填充这个用户时间线,我们应该讨论这个用户Case的取舍在SQL和NoSQL之间
传播tweets和构建这个home timeline 是一个笑话,传播tweets给所有的follower(6w tweets delivered on fanout per second) 将 过载一个传统的关系型数据库。我们或许想选择一个数据存储(速度快的写,比如No SQL数据库和内存),从内存中序列化的读1MB数据需要250微秒,当从SSD需要4X,从硬盘中读需要 80X.

我们可以存储媒体文件比如图片和视频在 Object Store

  1. Client 发送一个 tweet 到 Web Server
  2. Web Server 转发这个 request到 Write API server
  3. Write API 存储 tweet 进 SQL 数据库在用户的时间线
  4. Write API 连接 Fan Out Service,会做下面的事情:
  • 使用 User Graph Service去查询这个User的 follower(存储在Cache中)
  • 存储tweet进用户的follower的home timeline(在内存里面)
  • 存储tweet进 Search Index Service,用来开启fast searching
  • 存储 media 进 Object Store
  • 使用 notification service去发送push 的notifications 给 follower
    使用一个 Queue 去异步发送 notifications

向你的面试官说明多少代码你期望去写

如果Cache是使用Redis,我们可以使用原生的Redis List伴随着如下结构:

           tweet n+2                   tweet n+1                   tweet n
| 8 bytes   8 bytes  1 byte | 8 bytes   8 bytes  1 byte | 8 bytes   8 bytes  1 byte |
| tweet_id  user_id  meta   | tweet_id  user_id  meta   | tweet_id  user_id  meta   |

新的 tweet 将会被放进 Memory Cache, 将填充这个User 的 home timeline

我们将使用一个 public REST API:

$ curl -X POST --data '{ "user_id": "123", "auth_token": "ABC123", \"status": "hello world!", "media_ids": "ABC987" }' \https://twitter.com/api/v1/tweet

Response:

{"created_at": "Wed Sep 05 00:37:15 +0000 2012","status": "hello world!","tweet_id": "987","user_id": "123",...
}

内部的服务通信,我们可以使用 Remote Procedure Calls

Case02: User view the home timeline
  1. Client 发送一个 home timeline request 到 Web Server
  2. Web Server 转发请求到 Read API server
  3. Read API server 连接 Timeline Service,会做下面的事情:
  • 得到存储在内存中的timeline数据,包含 tweet ids 和 user ids
  • 查询 Tweet Info Service 去得到额外的喜喜关于 tweet ids
  • 查询 User Info Service去得到额外的信息关于 user ids

REST API:

curl https://twitter.com/api/v1/home_timeline?user_id=123

Response:

{"user_id": "456","tweet_id": "123","status": "foo"
},
{"user_id": "789","tweet_id": "456","status": "bar"
},
{"user_id": "789","tweet_id": "579","status": "baz"
}
Case03: User views the user timeline
  1. Client 发送一个 user timeline request 到 Web Server
  2. Web Server 转发这个 request 到 Read API server
  3. Read API 从SQL 数据库接收 User Timeline

这个 Rest API应该是和 home timeline相同的,除了所有的 tweets应该才子与 User,而不是User 的 follower

Case04: User searches keywords
  1. Client 发送一个 search request 到 Web Server
  2. Web Server 转发 request 到 Search API server
  3. Search API 和 Search Service通信,会做下面的事情:
  • Parses/tokenizes 查询 query,决定什么需要被 search
  • 移除 markup
  • 分解 text 进 terms
  • 修复 typos
  • 格式化首字母
  • 转换query去使用bool操作
  • 查询 Search Cluster(比如 Lucene) 为了结果
  • 去集群中查询 query
  • 合并,排名,排序,然后返回结果

Rest API:

$ curl https://twitter.com/api/v1/search?query=hello+world

扩展设计

开始思考这四件事:

  1. 负载测试
  2. 分析系统瓶颈
  3. 定位瓶颈和分析不同方案和好处
  4. 重复

讨论初始化的Design,定位瓶颈的过程是非常重要的。比如:添加 Load Balancer到多Web Server会产生什么问题? CDN 呢?数据库主从架构呢?什么是最优解?

我么将介绍一些组件来完成这个Design并且去定位扩展性问题,内部的load balancer不被展示去减少
杂乱。

  • DNS
  • CDN
  • Load balancer
  • Horizontal scaling
  • Web server (reverse proxy)
  • API server (application layer)
  • Cache
  • Relational database management system (RDBMS)
  • SQL write master-slave failover
  • Master-slave replication
  • Consistency patterns
  • Availability patterns

分析设计发现,Fanout Service是潜在的瓶颈,Twitter 用户的数百万 follower会花费数分钟来完成广播流程。这可能导致推文 @replies 出现竞争状况,我们可以通过在服务时重新排序堆文件来缓解这种情况。

我们还可以避免将来自高关注度用户的推文散开,代替,我们可以搜索去找到高关注度用户的 tweet,合并搜索结果伴随着用户的 home timeline结果。然后重新排序 tweet 在服务器时间。

额外的优化包括:

  • 保持每个 home timeline只有若百个 tweets 在内存中
  • 保持只有活跃用户的 home timeline info在内存中
    • 如果一个 user 在过去的30天不活跃的化,我们可以从 SQL Database重新构建timeline
      • 查询 User Graph Service 去决定谁是这个 user 正在 following
      • 从数据库获取到 tweets 然后添加他们进内存
  • 只存储一个月的tweets进 Tweet Info Service
  • 只存储活跃用户进 User Info Service
  • Search Cluster 有可能需要保存 tweets 进内存去保证低延迟

我们也想要定位在数据库中的瓶颈。

尽管 Memory Cache 可以减少数据库的负载,仅仅SQL读取副本不足以处理缓存缺失。我们可能需要采用额外的SQL扩展模式。

大量的写入将压倒单个SQL写主从,这也表明需要额外的扩展技术。

  • Federation
  • Sharding
  • Denormalization
  • SQL Tuning

We should also consider moving some data to a NoSQL Database.

Additional talking points

Additional topics to dive into, depending on the problem scope and time remaining.

NoSQL
  • Key-value store
  • Document store
  • Wide column store
  • Graph database
  • SQL vs NoSQL

Caching

  • Where to cache
    • Client caching
    • CDN caching
    • Web server caching
    • Database caching
    • Application caching
  • What to cache
    • Caching at the database query level
    • Caching at the object level
  • When to update the cache
    • Cache-aside
    • Write-through
    • Write-behind (write-back)
    • Refresh ahead

Asynchronism and microservices

  • Message queues
  • Task queues
  • Back pressure
  • Microservices

Communications

  • Discuss tradeoffs:
    • External communication with clients - HTTP APIs following REST
    • Internal communications - RPC
  • Service discovery

Security

Refer to the security section.

Latency numbers

See Latency numbers every programmer should know.

Ongoing

  • Continue benchmarking and monitoring your system to address bottlenecks as they come up
  • Scaling is an iterative process

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/629294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构与算法-二叉树-层次遍历I

二叉树层次遍历I 给你二叉树的根节点 root ,返回其节点值的 层序遍历 。 (即逐层地,从左到右访问所有节点)。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:[[3],[9,20],[15,7]]思路&…

【征服redis1】基础数据类型详解和应用案例

博客计划 ,我们从redis开始,主要是因为这一块内容的重要性不亚于数据库,但是很多人往往对redis的问题感到陌生,所以我们先来研究一下。 本篇,我们先看一下redis的基础数据类型详解和应用案例。 1.redis概述 以mysql为…

车载音频EMI的产生及典型音频功放AW836XX的解决方案

之前针对 eCall的文章中有提到D类音频功放需要关注EMI问题(点击文章回看《车载eCall系统音频应用解决方案》),在此展开此问题并寻求解决方案。 1. EMI定义与分类 电磁干扰(Electromagnetic Interference,EMI&#xff…

基于STM32的HX711示值放大器接口与驱动程序设计

将HX711示值放大器接口与STM32微控制器进行连接和驱动需要一定的硬件连接和软件编程。在这篇文章中,我们将介绍如何设计基于STM32的HX711示值放大器接口与驱动程序,并提供相应的代码示例。 1. 硬件连接 首先,我们需要将HX711示值放大器与STM…

openlayers [二] 初始化map 以及map的一些参数

文章目录 map 参数效果图代码分析 map 参数 controls 地图的控件 pixelRatio 设备上物理像素与设备无关像素(dip)之间的比率。 interactions 地图的互动 keyboardEventTarget 监听键盘事件的元素。这决定了KeyboardPan和 KeyboardZoom互动的触发时间。例…

残差网络 ResNet

目录 1.1 ResNet 2.代码实现 1.1 ResNet 如上图函数的大小代表函数的复杂程度,星星代表最优解,可见加了更多层之后的预测比小模型的预测离真实最优解更远了, ResNet做的事情就是使得模型加深一定会使效果变好而不是变差。 2.代码实现 impo…

网页设计(九)JavaScript基础应用

一、网页中文字的字号选择性改变 单击前初始状态页面 单击“中”链接后页面 文字素材:   JavaScript是一种能让你的网页更加生动活泼的程式语言,也是目前网页中设计中最容易学又最方便的语言。你可以利用JavaScript轻易的做出亲切的欢迎讯息、漂亮的…

web前端第二次

第一题&#xff1a; <!DOCTYPE html> <html> <head><title>计算奇数和</title> </head> <body><label for"input">请输入一个正整数&#xff1a;</label><input type"number" id"input&qu…

影响CSGO搬砖饰品价格上涨和下跌的原因有哪些

到底哪些情况下CSGO饰品价格会涨&#xff0c;哪些情况会跌&#xff0c;下面是一个混迹steam平台多年的老油条&#xff0c;一点个人见解&#xff0c;不喜吻喷。 首先&#xff0c;CSGO饰品的交易是从市场进行的&#xff0c;市场终究是市场&#xff0c;是自由买卖的&#xff0c;必…

VMware Vsphere 日志:用户 dcui@127.0.01已以vMware-client/6.5.0 的身份登录

一、事件截图&#xff1a; 二、解决办法 原因&#xff1a; 三、解决办法 1.开启锁定模式 2.操作 1、从清单中选择您的 ESXi 主机&#xff0c;然后转至管理 > 设置 > 安全配置文件&#xff0c;然后单击锁定模式的编辑按钮 2、在打开的锁定模式窗口中&#xff0c;选中启…

云服务器 云服务器概述-产品简介-文档中心-腾讯云

腾讯云服务器入门教程包括云服务器CPU内存带宽配置选择&#xff0c;选择云服务器CVM或轻量应用服务器&#xff0c;云服务器创建后重置密码、远程连接、搭建程序环境等&#xff0c;腾讯云服务器网txyfwq.com分享从0到1腾讯云服务器入门教程&#xff1a; 腾讯云服务器入门教程 …

CSDN 年度总结|知识改变命运,学习成就未来

欢迎来到英杰社区&#xff1a; https://bbs.csdn.net/topics/617804998 欢迎来到阿Q社区&#xff1a; https://bbs.csdn.net/topics/617897397 &#x1f4d5;作者简介&#xff1a;热爱跑步的恒川&#xff0c;致力于C/C、Java、Python等多编程语言&#xff0c;热爱跑步&#xff…

「许战海矩阵战略洞察」吉香居给调味品企业带来的战略启示

引言&#xff1a;吉香居通过实施份额化战略和打造形象产品&#xff0c;在调味品行业中取得了成功。但品牌结构需要调整&#xff0c;需要将子品牌整合到吉香居主品牌下&#xff0c;共同提升品牌势能。此外&#xff0c;企业需保持主品牌竞争战略&#xff0c;以实现长期稳定的高速…

transfomer中正余弦位置编码的源码实现

简介 Transformer模型抛弃了RNN、CNN作为序列学习的基本模型。循环神经网络本身就是一种顺序结构&#xff0c;天生就包含了词在序列中的位置信息。当抛弃循环神经网络结构&#xff0c;完全采用Attention取而代之&#xff0c;这些词序信息就会丢失&#xff0c;模型就没有办法知…

进阶Docker4:网桥模式、主机模式与自定义网络

目录 网络相关 子网掩码 网关 规则 docke网络配置 bridge模式 host模式 创建自定义网络(自定义IP) 网络相关 IP 子网掩码 网关 DNS 端口号 子网掩码 互联网是由许多小型网络构成的&#xff0c;每个网络上都有许多主机&#xff0c;这样便构成了一个有层次的结构。 IP 地…

SpringAOP-说说 Spring AOP 和 AspectJ AOP 区别

Spring AOP Spring AOP 属于运行时增强&#xff0c;主要具有如下特点&#xff1a; 基于动态代理来实现&#xff0c;默认如果使用接口的&#xff0c;用 JDK 提供的动态代理实现&#xff0c;如果是方法则使用 CGLIB 实现Spring AOP 需要依赖 IOC 容器来管理&#xff0c;并且只能…

浅谈安科瑞铁塔/基站电力监控解决方案

I.背景信息&#xff1a; 2020年5G元年&#xff0c;通信行业承蓬勃发展之态&#xff0c;各大运营商和铁塔集团在布局新一代通讯基站。基站用电量不断上升&#xff0c;通信基站智能化电力监控及节能管理已成为各运营商企业的研究方向。 而同时&#xff0c;目前铁塔基站电力使用…

靶机-basic_pentesting_2

basic_pentesting_2 arp-scan -l查找靶机IP masscan 192.168.253.154 --ports 0-65535 --rate10000 端口扫描 nmap扫描nmap -T5 -A -p- 192.168.253.154 目录扫描80端口 http://192.168.253.154/development/dev.txt 2018-04-23: I’ve been messing with that struts stu…

mipi协议

完成mipi信号通道分配后&#xff0c;需要生成与物理层对接的时序、同步信号&#xff1a; MIPI规定&#xff0c;传输过程中&#xff0c;包内是200mV、包间以及包启动和包结束时是1.2V&#xff0c;两种不同的电压摆幅&#xff0c;需要两组不同的LVDS驱动电路在轮流切换工作&#…

数据集成时表模型同步方法解析

01 背景介绍 数据治理的第一步&#xff0c;也是数据中台的一个基础功能 — 即将来自各类业务数据源的数据&#xff0c;同步集成至中台 ODS 层。业务数据源多种多样&#xff0c;单单可能涉及到的主流关系型数据库就有近十种。功能更加全面的数据中台通常还具有对接非关系型数据…