특정 사건이 일어날 확률 알아보기

평균 고객의 행동을 나타내는 정규분포 이해하기

높이 솟은 제주도 한라산의 모습을 사진으로 보신 적 있으신가요? 혹은 종(Bell)을 보신 적 있으시죠? 정규분포는 마치 한라산이나 종처럼 좌우가 대칭되고, 평균이 가장 가운데에 위치했으며 좌우 양쪽으로 갈수록 등선이 낮아지는 모습을 떠올릴 수 있습니다.

그럼 어떤 사람은 이렇게 질문할지도 모르겠습니다. ‘이등변삼각형도 정규분포라고 볼 수 있나요?’이등변삼각형과 달리 정규분포는 ‘곡선(Bell Curve)’의 모습이 명백하게 보이는 형태입니다. 아래 이미지를 보면 쉽게 이해 가실거에요.



구글 이미지에서 정규분포를 검색한 결과 페이지입니다. 가운데가 우뚝 솟아있고 곡선이 그려져있습니다.



정규분포는 ‘특정 사건이 일어날 확률’을 나타내는 대표적인 확률 분포


정규분포(Normal distribution)는 확률분포의 대표적인 예제입니다. 확률분포를 설명하기에 앞서 확률변수와 확률함수라는 것이 있는데요, 확률변수가 특정확률이 나타나는 일련의 사건에 수치를 부여한 변수를 의미한다면, 확률함수는 확률변수를 확률의 값으로 대응시키는 함수를 의미합니다. 이 두 변수 및 함수를 이용하면, ‘특정 사건이 일어나는 확률’을 구할 수 있게 되고 이를 도식화한 것이 바로 확률 분포입니다.


대한민국 30대 평균 남성 신장이 173cm라고 합니다. 그럼 이 평균키에 해당하는 남자 수가 가장 많을 것이고 190cm가 넘거나 160cm 이하의 남성 또한 거의 없을 것입니다. 이 세상의 모든 현상이 정규분포를 따르지는 않지만, 주변의 많은 현상들이 역시나 정규분포를 따른다고 잘 알려져 있습니다.

여러분의 사랑스런 자녀가 영어와 수학시험을 치르고 왔습니다. 영어를 90점, 수학을 80점 맞았다면 단순히 봤을 때 영어를 90점 맞은 것에 대해 더 많이 칭찬할 수 있을지도 모르겠습니다. 하지만, 영어점수 평균이 80점이고 표준편차가 20점, 수학은 평균이 60점이고 표준편차가 10점이었다면 어떨까요? 영어를 90점 받는 것과 수학을 80점 이상 받는 것이 각각 상위 몇 퍼센트에 속하는지를 표준화하여 공정한 상대평가를 할 수 있게됩니다. 정규분포는 따르되 평균과 표준편차가 각각 다른 현상이 존재할 때 서로를 비교하기 위해 표준화할 수 있다는 것을 의미합니다.

  • 편차(Deviation)은 관측값과 평균의 차이를 의미하는 용어입니다. 대한민국 30대 남성 평균 키가 173m이고 김동수라는 사람의 키가 171cm라면, 김동수는 대한민국 30대 남성 평균키와 2cm의 편차를 갖고 있다고 말할 수 있습니다.


정규분포 표준화 공식의 분모값 σ는 그리스어 ‘시그마‘라고 읽습니다.

영어를 확률변수 X, 수학을 확률변수 Y로 각각 놓고 확률변수 Z로 표준화시켜봅시다. 그럼 어떻게 될까요? 아래 수식으로 값을 구할 수 있습니다.


  • 영어 90점 이상 확률, P(X>=90) = P(Z>=(90-80)/20) = P(Z>=0.5) = 0.3085 = 상위 30%
  • 수학 80점 이상 확률, P(Y>=80) = P(Z>=(80-60)/10) = P(Z>=2) = 0.0228 = 상위 2%

표준화하였더니 영어를 90점 받는 것보다 수학을 80점 이상 받는 것이 훨씬 더 어렵다는 것을 알 수 있었습니다. 이처럼 단순히 겉으로만 보이는 점수가 좋다고해서 실제로 좋다고 해석될 수 없죠. 그래프로 시각화하면 더 쉽게 와 닿을 수 있습니다.


표준정규분포 곡선을 영어점수와 수학점수로 표현한 그래프


정규분포를 활용한 마케팅 & UI/UX 아이디어


그렇다면 마케팅이나 UI/UX 관점에서는 정규분포를 어떻게 받아들이고 활용할 수 있을까요? 뷰저블은 다양한 아이디어와 사례를 고민해보았습니다.



하나, 고객의 표준 행동을 벗어날 때 알림을 받아볼 수 있습니다.

먼저 민감도라고 볼 수 있는 ‘시그마’ 값을 정해, 시그마를 넘어서는 편차가 발생하는 즉시 알림을 줄 수 있습니다. 고객의 평균적인 행동과 벗어날 때 즉각적으로 확인하거나 대응할 수 있는 것이지요. 표준편차라는 것은 어떤 값이 평균과 얼마나 떨어져 있는가를 의미하기 때문에, 예를 들어 일 평균 고객 유입자 수가 1만명이고 표준편차인 시그마가 100이라고 한다면 1만명에서 +200명 또는 -200명을 넘어설 때 바로 알림 메시지로 받아볼 수 있게 됩니다. 실제 구글 애널리틱스나 어도비 애널리틱스 등의 많은 서비스에서 비슷한 기능을 제공중입니다.



둘, 고객에게 최적의 상품 구매 시기를 제시할 수 있습니다.

오픈마켓이나 쇼핑 플랫폼 사업자들이라면 위 시그마 개념을 적용하여 관리 하한선보다 낮은 금액으로 상품이 등록되었을 때 고객에게 적시의 구매 시기를 바로 안내할 수 있습니다. 확률을 벗어난 최저가 즉, 구매 타이밍이라고 해석할 수 있기 때문입니다.

다나와 같은 가격 비교 사이트라면 정규분포 그래프를 활용하여 지금이 일반적인 가격 수준인지, 조금 높아서 구매를 꺼리는 것이 좋을지 낮아서 바로 구매해야하는지를 안내하는 기능을 시각화할 수 있을 것입니다.



셋, 고객의 평균적인 전환 행동 흐름들을 파악할 수 있습니다.

사실 정규분포 그래프는 뷰저블의 Path를 몇 번 클릭해보았다면 쉽게 개념을 이해하실 수 있으셨을 겁니다. 바로 이 Path Plot 기능이 ‘평균적인 활동 범위를 가진 그룹’의 행동 흐름을 시각화한 것이기 때문이죠. 물론 평균적이지 않은 범위 즉, ‘활동량이 평균보다 많아 FAN이라고 부를 수 있는 고객들의 행동 흐름’ 또한 시각화하여 볼 수 있습니다.


뷰저블의 Path Plot으로 정규분포 내 고객의 행동흐름을 살펴볼 수 있습니다.

Path Plot은 정규분포 내 혹은 벗어난 고객들의 여러 행동 흐름 데이터들을 정규화(Normalization) 작업을 거쳐 데이터의 범위를 일치시키거나 그 분포를 유사하게 만들어주는 기능입니다. 여기서 멈추지 않고 한가지 더 자랑할만한 기능이 있는데요, 바로 Segmenting CTA 메뉴 내 Path Plot을 활용하는 것입니다.



뷰저블의 Segmenting CTA 기능을 활용하면 특정 버튼을 클릭한 정규분포 범위 내 고객의 대표적인 행동 흐름을 시각화할 수 있습니다. 예를 들어 커머스라면 결제하기나 장바구니 담기 버튼이 될 수 있고, 채용 사이트라면 지원하기 버튼, 콘텐츠 서비스라면 구독하기 버튼을 클릭한 고객의 여정을 분석할 수 있습니다. 마찬가지로 버튼을 클릭하지 않은 고객들의 여정 또한 분석할 수 있죠.



위 이미지는 뷰저블 서비스를 개발/운영하는 포그리트 구성원을 소개하는 페이지입니다. ‘RECRUIT’ 버튼을 클릭한 고객의 탐색 여정을 살펴볼 수 있었습니다. 고객님들은 우리 김상철 CBO가 가장 먼저 눈에 들어오시는 것 같네요!



넷, 고객의 콘텐츠 이용시간과 지불 금액을 활용하여 관리대상 고객을 분류할 수 있습니다.

고객의 콘텐츠 이용시간이나 지불 금액을 정규분포화하면 상하위 N% 고객을 추출할 수 있습니다. 동영상 콘텐츠 플랫폼의 경우, 상위 N%에 그룹에 속하는 고객을 대상으로 기업은 해당 고객에게 FAN’s 등급을 부여하고 다양한 혜택을 제공할 수 있습니다. 왕관을 달아줄 수도 있고, 감사 쿠폰을 줄 수도 있죠. 반면 하위권에 속하는 고객은 타겟을 추출하여 별도 앱 푸시를 보내 이용을 독려하는 아이디어를 고민해볼 수 있습니다.



다섯, 제품 발매 후 구입에 이르기까지의 고객 유형을 분류할 수 있습니다.

스탠포드 대학 에버렛 로저스(Everett M. Rogers) 교수는 특정 서비스 또는 서비스 모델을 받아들이는 수용자를 정규분포화한 ‘혁신확산 이론(Diffusion of Innovations Theory)’ 이라는 것을 제안하였습니다.

혁신자, 초기수용자, 초기 다수 수용자, 후기 다수 수용자, 지각 수용자로 구분하여 단계별 상품 전략을 어떻게 취할지 제안합니다.

로저스의 곡선은 새로운 아이디어를 대중들에게 신속히 확신시키려고 하는 것은 무익하다는 점을 알려주는데요, 혁신자와 초기수용자에게 확신을 주며 시작하는 것이 훨씬 좋은 방법이라 합니다. 나아가 이 그래프를 활용하면 수용자의 범주와 구성비율을 커뮤니케이션 목적을 위한 타겟그룹을 추정하는데 기초 자료로 활용할 수 있습니다.




오늘은 통계학의 기초적인 개념인 정규분포에 대해 알아보았습니다. 정규분포는 통계의 근간이 되는 기본적인 그래프의 모습이며 어떠한 데이터가 정규분포 수치에서 벗어난다면 해당 값은 표준에서 벗어났다고 이해할 수 있습니다. 정규분포는 대부분의 자료가 중심에 몰려 있고, 근사적으로 자료의 중심점과 좌우 대칭을 이루는 경우가 많습니다.

뷰저블은 이러한 정규분포의 개념을 활용하여 고객의 행동을 ‘평균 그룹’과 ‘FAN’s그룹’으로 나눠 시각화하는 Path Plot을 제공합니다!


Share This Post

Share on facebook
Share on linkedin
Share on twitter
Share on email

More To Explore