ch11 뉴스 피드 시스템 설계

#시스템 디자인

뉴스 피드 시스템 설계

뉴스 피드(news feed) : 페이스북 홈 페이지 중앙에 지속적으로 업데이트되는 스토리, 사용자 상태 정보 업데이트, 사진, 비디오, 링크, 앱활동, 팔로우 사람들, 그룹 좋아요 등등..

1단계 문제 이해 및 설계 범위 확정

  • 모바일을 위한 시스템인지, 웹? 둘다 지원해야하나?
  • 중요한 기능들에 대한 질문
  • 뉴스 피드에 조회 순서, 최근 포스트 위치? 기준이 있는지?
  • 한 명의 사용자는 최대 몇 명의 친구를 가질 수 있는지?
  • 트래픽 규모
  • 피드에 이미지, 비디오도 올릴 수 있는지?

요구사항

  • 모바일, 웹 둘다 지원
  • 뉴스 피드 페이지에 새로운 스토리를 올릴 수 있어야함, 친구들이 올리는 스토리도 볼수 있게
  • 포스트는 시간 흐름 역순으로 표시
  • 최대 친구는 5000명
  • 매일 천만명(10million DAU) 방문
  • 스토리에 이미지, 비디오 올라갈수있음

2단계 개략적 설계안 제시 및 동의 구하기

  1. 피드 발행(feed publishing) : 사용자가 스토리 포스팅하면 캐시, 데이터베이스에 기록, 새포스팅은 친구 뉴스 피드에도 전송
  2. 뉴스 피드 생성(news feed building) : 모든 친구 포스팅을 시간 흐름 역순으로 모아서 만듬

뉴스 피드 API

HTTP 프로토콜 기반

상태 정보 업데이트 뉴스 피드 가져오기 친구 추가 와 같은 기능들에 사용

피드 발행 API

새 스토리를 포스팅 하기 위한 API HTTP POST 형태

POST /v1/me/feed

인자:

  • 바디(body) : 포스팅 내용
  • Authorization 헤더 : API 호출 인증
피드 읽기 API

뉴스 피드 가져오기

GET /v1/me/feed

인자:

Authorization 헤더 : API 호출 인증

image

  • 사용자 : 모바일 앱, 브라우저 , POST /v1/me/feed 로 요청중
  • 로드밸런서(load balancer) : 웹서버 트래픽 분산
  • 웹 서버(web server) : HTTP 요청을 내부 서비스로 중계
  • 포스팅 저장 서비스(post service) : 새 포스팅을 데이터베이스, 캐시에 저장
  • 포스팅 전송 서비스(fanout service) : 새 포스팅을 친구 뉴스 피드에 푸시, 캐시에 보관하여 읽기 빠르도록
  • 알림 서비스(notification service) : 친구들에게 새 포스팅 알림
뉴스 피드 생성

image

  • 사용자: GET /v1/me/feed API 사용
  • 로드밸런서(load balancer) : 웹서버 트래픽 분산
  • 웹 서버(web server) : HTTP 요청을 내부 서비스로 중계
  • 뉴스 피드 서비스(news feed service) : 캐시에서 뉴스 피드 가져오기
  • 뉴스 피드 캐시(news feed cache) : 뉴스 피드 렌더링시 필요한 피드 ID 보관

3단계 상세 설계

피드 발행 흐름 상세 설계
웹 서버
  • 클라이언트 통신

  • 인증, 처리율 제한 기능 수행

  • 인증 토큰을 Authorization 헤더에 넣기

  • API 호출하는 사용자만 포스팅

  • 유해한 콘텐츠가 자주 올라오는 것을 방지하기 위해 특정 기간 동안 한 사용자가 올릴 수 있는 포스팅 수 제한

포스팅 전송 서비스
  • 팬아웃(fanout) : 어떤 사용자의 새 포스팅을 친구에게 전달하는 과정

image

쓰기시점에 팬아웃하는 모델 : 새로운 포스팅을 기록하는 시점에 뉴스 피드를 갱신, 사용자의 캐시에 포스팅을 기록하는 것

장점
  • 뉴스 피드가 실시간으로 갱신, 친구에게 즉시 전송됨
  • 새 포스팅이 기록되는 순간에 이미 갱신되므로 읽는데 드는 시간이 짧아짐
단점
  • 친구가 많으면, 뉴스 피드를 갱신하는데 시간이 많이 걸림. 핫키(hotkey)
  • 서비스를 자주 이용하지 않는 사용자의 피드까지 갱신하므로 자원이 낭비됨

읽기 시점에 팬아웃하는 모델 : 피드를 읽는 시점에 갱신한다. 요청 기반(on-demand) 모델이다.

장점
  • 비활성화된 사용자, 거의 로그인하지 않는 사용자의 경우 유리, 로그인하기전까지는 자원을 소모하지 않음
  • 친구에게 각각 푸시하는 작업도 없으니 핫키 문제도 생기지 않음
단점
  • 뉴스 피드를 읽는데 많은 시간이 소요될 수 있음

두가지 방법을 결합하여 장점은 가져가고 단점은 버리는 전략

뉴스 피드를 빠르게 가져오기 위해 대부분 사용자는 푸시모델 사용 친구, 팔로어가 많은 사용자는 팔로어의 포스팅이 필요할 때 가져가도록 하는 풀 모델을 사용하여 과부하를 방지

? 팔로어의 포스팅이 필요한 시기는 언제일까?

추가로 안정해시를 통해 요청과 데이터를 보다 고르게 분산하여 핫키 문제를 줄여볼 수 있다.

image

  1. 그래프 데이터베이스에서 친구 ID 목록 가져오기
  • 그래프 데이터베이스는 친구 관계, 추천을 관리하기 적합
  1. 사용자 정보 캐시에서 친구 정보 가져오기
  • 사용자 설정에 따라 친구 일부를 걸러내고(피드 업데이트 무시로 설정)
  1. 친구 목록과 새 스토리 포스팅 ID를 메시지 큐에 넣기
  2. 팬아웃 작업 서버(fanout workers) 는 큐에서 꺼내어 뉴스 피드캐시(news feed cache)에 넣기
  • <포스팅 ID, 사용자 ID> 순서쌍
사용자 정보, 포스팅 정보를 저장하지 않는 이유

메모리 요구량이 지나치게 늘어날 수 있음

캐시 크기 제한을 두어 메모리 크기 적정 수준을 유지

사용자가 천 개의 스토리를 전부 훑어보는 일이 벌어질 확률은 지극히 낮음 대부분의 사용자가 보려 하는 것은 최신 스토리이기에 캐시 미스가 일어날 확률은 낮음

피드 읽기 흐름 상세 설계

image

  1. 사용자가 뉴스 피드 읽기 요청
  2. 로드밸런서가 요청을 웹서버 중 하나로 전송
  3. 웹서버는 뉴스 피드 서비스를 호출
  4. 뉴스 피드 캐시에서 포스팅 ID 목록을 가져옴
  5. 뉴스 피드에 표시할 사용자 이름, 사용자 사진, 포스팅 컨텐츠, 이미지등을 사용자 캐시, 포스팅 캐시에서 가져와 뉴스 피드를 생성
  6. JSON형태로 클라이언트에게 전송
캐시 구조

캐시는 뉴스 피드시스템의 핵심 컴포넌트이다.

image

캐시를 5계층으로 나눈다.

  • 뉴스 피드 : 뉴스 피드 ID
  • 콘텐츠 : 포스팅 데이터 보관, 인기 컨텐츠는 따로 보관
  • 소셜 그래프 : 사용자 간 관계 정보 보관
  • 행동(action) : 포스팅에 대한 사용자의 행위 정보 보관, 포스팅에 대한 좋아요, 답글
  • 횟수(counter) : 좋아요 횟수, 응답 수, 팔로어 수, 팔로잉 수 등,,

4단계 마무리

논의해보면 좋을 만한것

데이터베이스 규모 확장

  • 수직적vs 수평적

  • SQL vs NoSQL

  • 다중화

  • 복제본에 대한 읽기 연산

  • 일관성 모델

  • 샤딩

  • 웹계층을 무상태로 운영하기

  • 가능한 많은 데이터를 캐시할 방법

  • 여러 데이터 센터를 지원할 방법

  • 메시지 큐를 사용하여 컴포넌트 사이 결합도 낮추기

  • 핵심 메트릭에 대한 모니터링

  • 트래픽 몰리는 시간대 QPS(Queries Per Second)

  • 사용자가 뉴스피드 새로고침 할때 지연시간

다음 챕터