빅데이터 (4차 산업혁명의 언어) 03. 넷플릭스 netflix

빅데이터 (4차 산업혁명의 언어) 3

29p

03. 넷플릭스 넷플릭스 소비자가 원하는 프로그램을 제공하기 위해 빅데이터를 이용하는 영화. TV 드라마 등 동영상 스트리밍 서비스를 제공하는 넷플릭스는 미국에서 피크타임 인터넷 트래픽의 3분의 1을 차지한다.

현재 50여 개국에서 6500만 명의 회원이 넷플릭스가 제공하는 TV 드라마와 영화를 매일 1억 시간 이상 시청하고 있다. 이들의 시청 습관을 이해하기 위해 이들 수백만 가입자의 정보가 수집·모니터링된다.

그러나 넷플릭스 데이터는 단순히 말 그대로 큰 데이터일 뿐만이 아니다. 넷플릭스를 진정한 빅데이터 회사로 만든 것은 최첨단 분석 기법을 통한 데이터 조합이다.빅데이터가 해결할 수 있는 문제는 무엇인가?할리우드의 전설적인 영화 작가 월리엄 골드만은 이렇게 말했다.아무도 어떤 작품이 흥행에 성공할지에 대해 조금도 모릅니다. 지금도 그렇고 앞으로도 그럴 거예요.

그는 인터넷이 탄생하기 전에, 그리고 빅데이터가 도입되기 전에 이 말을 했다.하지만 넷플릭스는 우리가 어떤 영화를 좋아하는지 정확히 예측하고 배급하는 사업을 만들었다. 그리고 그의 말이 틀렸다는 것을 입증했다.빅데이터를 실제로 어떻게 이용할 것인가?넷플릭스 구인공고를 보면 얼마나 진지하게 데이터를 모아 분석하는지 충분히 알고 있다.이들이 전문가를 찾는 분야는 개인 설정 분석/메시지 분석/콘텐츠 전달 분석/기기 분석 등 리스트에 한계가 없다.

넷플릭스는 사업 전 영역에서 빅데이터를 사용하는데 궁극적인 목표는 고객이 어떤 콘텐츠를 재미있게 볼지를 예측하는 것이다. 빅데이터 분석은 이를 위해 만들어진 추천 엔진을 가동하는 연료와 같다.

2006년부터 시작. 넷플릭스가 아직 dvd를 우편으로 보내는 사업을 하고 있을 때였다. (스트리밍은 이듬해 시작) 이들은 넷플릭스 프라이즈라는 현상 공모에 백만달러의 상금을 걸었다.상금은 고객이 이전에 본 영화에 매긴 평점을 바탕으로 이들이 다음에 어떤 영화를 선택할지 예측하는 데 최적화된 알고리즘을 만드는 팀에게 전달될 것이다.

우승팀은 2009년에 최종 발표. 그들의 아이디어는 나중에 알고리즘이 수정. 보완됐음에도 여전히 추천 엔진의 핵심 요소로 자리 잡고 있다.

당초 분석가들은 고객에 관한 정보 부족에 한계를 느끼고 있었다. 고객 id/영화 id/고객이 영화를 본 날짜와 고객이 영화에 매긴 평점. 이 네 가지만으로 분석해야 했다.하지만 스트리밍이 영화를 전달하는 기본 방식이 되자 고객에 대한 많은 새로운 정보를 사용할 수 있게 됐다. 이 데이터를 바탕으로 넷플릭스는 고객이 즐길 수 있는 영화를 지속적으로 공급. 고객이 가장 불만스러운 상황까지 예측할 수 있는 모델을 만들었다. 그들이 제공한 영화에 만족한 고객들은 기꺼이 넷플릭스를 계속 시청할 것이다.

넷플릭스 시도의 또 다른 핵심 요소는 태그(레테르)다.넷플릭스는 사람들을 고용해 영화를 보게 한 뒤 그 영화에 포함된 요소를 태그로 만들도록 했다. 그렇게 함으로써 당신이 재미있게 본 영화에 부착된 태그와 비슷한 태그를 가진 다른 영화를 당신에게 추천할 수 있게 되었다.그래서 약간 로봇 같은 소리로 당신에게 이런 특별한 제안이 오기도 한다.강한 여성이 주도하는 것이 특징인 엉뚱한 청소년 코미디 분위기의 영화.

또한 이 서비스는 같은 이유로 때때로 (내 경험으로는 흔히) 내가 별 하나 또는 두 개를 준 영활을 추천하기도 한다. 이는 넷플릭스가 내린 평가의 가중치가 실제 영화에 대한 흥미보다 큰 의미를 갖음을 시사한다. 사실 넷플릭스는 우리의 시청 습관을 효과적으로 파악하기 위해 거의 8만 가지의 새로운 세부 유형을 정의했다.

최근 넷플릭스는 영화 스튜디오나 다른 네트워크를 위한 배급사가 아닌 콘텐츠 제작자로 사업 방향을 바꿨다. 여기서도 그들의 전략은 확실히 데이터에 의해 주도되었다.

넷플릭스 가입자는 데이비드 핀처가 감독. 케빈 스테이시 주연의 영화를 강하게 좋아한다. 이들은 hbo나 abc 같은 TV채널이 제시한 것보다 높은 가격에 드라마하우스 오브 카드에 대한 권리를 매입했다.넷플릭스는 그 드라마가 완벽한 TV 드라마에 대한 예측 모델로 적합하다는 데 자신했다.그래서 파일럿 프로그램을 제작하는 관례와 달리 26개 에피소드로 구성된 두 시즌 드라마를 의뢰했다. 넷플릭스의 관리 하에 진행된 드라마 제작의 모든 측면은 데이터를 기반으로 이뤄졌다. 심지어 타이틀 이미지에 사용된 색상의 배치조차 시청자를 끌어들이기 위해 선택됐다.

넷플릭스가 더 나아지기를 바라는 최우선 수치는 고객이 서비스를 이용하며 보내는 시간이다.서비스를 잘 이용하지 않는 고객이 서비스 가입에 쓰는 돈을 아깝게 생각해 가입 취소를 할 수 있음을 굳이 통계학을 사용하지 않아도 알 수 있다.

이를 막기 위해 경험의 질에 영향을 미치는 다양한 요소를 면밀히 모니터링한다.이러한 요소가 사용자의 행동에 어떤 영향을 미치는지 탐색하고 모델을 만든다.또한 콘텐츠 전송 위치가 사용자의 서비스 체험에 어떤 영향을 미치는지 알기 위해 위치 정보를 수집함으로써 가장 많은 가정에 최상의 서비스를 제공할 수 있는 데이터 전송 위치를 계산할 수 있다.그 결과는 무엇인가.2015년 4월 넷플릭스가 주주들에게 보낸 편지를 보면 빅데이터 전략이 효과가 있었음을 알 수 있다.2015년 1분기 신규 이용자 490만명 증가. 이는 2014년 같은 기간 400만명이 늘어난 것과 비교하면 큰 성과다.

넷플릭스는 이 성공의 대부분이 하우스 오브 카드. 오렌지 이즈 더 뉴 블랙과 같은 가장 향상된 콘텐츠에 있다고 평가. 이러한 오리지널 콘텐츠가 신규 회원 확보 및 기존 고객 유지에 큰 역할을 했다.시청자들이 어떤 콘텐츠를 선호할지 예측한 넷플릭스의 능력이 성공 요인 중 가장 큰 부분을 차지한다는 것은 분명하다.

넷플릭스가 최우선으로 하는 수치 ᅩᄀ が 고객이 서비스를 이용하는데 소비한 시간은 어떻게 달라졌을까.2015년 1분기에 회원들은 100억 시간 분량의 콘텐츠를 시청했다.어떤 데이터가 사용되었는가?추천 알고리즘과 콘텐츠 결정은 고객이 어떤 영화를 보고 하루 중 언제 영화를 보는지, 그리고 영화를 선택하는 데 얼마나 시간이 걸리고 얼마나 자주 영화가 끊기는지(사용자에 따라나 네트워크의 한계에 따라) 별은 여러 개에 따라 결정된다.

체감 품질을 분석하기 위해 넷플릭스는 버퍼링으로 인한 지연과 영상의 질에 영향을 주는 비트레이트(초당 처리해야 하는 비트 단위의 데이터 크기.용량이 클수록 화질이 좋다), 그리고 고객 위치에 대한 정보 수집 기술적인 세부사항은 무엇인가?넷플릭스가 제공하는 방대한 양의 영화와 TV 드라마는 아마존 웹 서비스 클라우드에 호스팅. 이들 콘텐츠는 전 세계의 인터넷 서비스 제공업체나 다른 중앙 컴퓨터의 미러 사이트(다른 사이트와 내용은 동일하고 인터넷상의 주소가 다른 웹사이트)에서 접속할 수 있다.

넷플릭스는 인터넷 서비스 제공업체의 비용 부담을 낮췄다. 이들이 가정에서 시청하는 사람들에게 콘텐츠를 전달하기 전 넷플릭스에서 데이터를 다운로드하는 데 따른 비용 부담을 줄인 것이다.

2013년 넷플릭스의 콘텐츠는 3페타바이트를 넘었다고 한다. 이 데이터는 넷플릭스 타이틀 대부분을 넷플릭스 콘텐츠를 지원하는 재생장치에 의해 120가지 비디오 포맷으로 보유해야 하기 때문에 발생.

원래 넷플릭스는 오라클 데이터베이스를 사용했지만, 비정형 데이터에서 더 복잡한 빅데이터 기반 분석이 가능한 노에스큐엘노스클과 카산드라로 데이터베이스를 전환했다.

세계 최대 빅데이터 행사인 스트라타+하둡월드 컨퍼런스 strata+하둡월드컨퍼런스 연설에서 넷플릭스 데이터 플랫폼 팀을 이끄는 커트 브라운은 어떻게 넷플릭스 데이터 플랫폼이 계속 진화하는지 설명했다.

넷플릭스의 데이터 인프라는 하둡. 하이브리드, 피그피그와 같은 빅데이터 기술과 테라테이더 teradata나 마이크로스트레티지 microstrategy와 같은 전통적인 비즈니스 인텔리전스 툴의 결합으로 이뤄진다.

여기에 넷플릭스가 개발한 오픈소스 애플리케이션 립스틱 립스틱과 지니게니도 사용.넷플릭스의 모든 핵심 인프라와 마찬가지로 이 모든 것은 아마존 웹 서비스 클라우드로 운영.앞으로 넷플릭스는 스트리밍. 기계학습·사용사례 분석을 위해 스파크를 연구하고 자체 개발한 오픈소스 제품군의 새로운 추가 개발도 계속 극복해야 할 문제는 무엇일까.넷플릭스에 의해 수집된 메타데이터(시청자가 어떤 배우를 좋아하고 어느 시간대에 TV나 영화를 보는지 등)의 상당 부분은 쉽고 간단하게 정리되는 데이터다.하지만 넷플릭스는 어수선하고 정리되지 않은 비디오나 오디오 데이터에도 많은 유용한 정보가 들어있다는 것을 일찌감치 깨달았다.

이들 정보는 컴퓨터로 분석할 수 있도록 그 가치를 밝히기 위해서는 이를 측정하려는 특별한 방법이 필요했다.넷플릭스는 그 문제를 시청자를 통해서 해결. 이들에게 돈을 주고 수천 개의 콘텐츠에 번호를 매기고 몇 시간씩 콘텐츠를 보면서 그 속에서 찾은 요소마다 꼼꼼히 태그를 붙이도록 한 것이다.

32페이지의 안내서를 읽은 후 시청자는 영웅이 종교적 초월을 경험한다. 동누의 강한 여성 캐릭터가 엄격한 도덕적 선택을 했다. 와 같이 주제랑 주제 모티브 표시했어. 이 데이터를 통해 넷플릭스는 말하는 동물이 나오는 코미디나 동성애를 주제로 한 역사 드라마와 같은 거의 8만 가지 세부 유형을 나눌 수 있다.

이제 넷플릭스는 단순히 당신은 공포 영화 또는 스파이를 좋아하는 것보다 훨씬 정확하게 당신이 어떤 영화를 좋아하는지 정의하고 당신이 어떤 영화를 보고 싶은지를 예측하는 데 이를 사용할 수 있다.

이는 비정형의 산만한 데이터를 정형화하여 수치적으로 평가할 수 있는 개요(빅데이터의 기본원리 중 하나)를 나타낸다.

오늘날 넷플릭스는 jpg 파일로 된 콘텐츠의 스냅샷을 찍을 수 있는 루틴을 개발하고 안면인식, 색채분석 등 정교한 기술을 사용해 화면 속에서 무슨 일이 일어나고 있는지 분석함으로써 이 과정을 자동화하기 시작했다. 이 스냅샷은 일정 간격으로