이 글은 행동 데이터 분석이라는 아래와 같은 책을 읽고 정리한 내용입니다. 앞에서 데이터 분석과 비판적 사고라는 책을 공부했었는데 좀 더 실무적으로 코드와 함께 살펴보고 싶고 다른 관점도 배우고 싶어서 공부하게 되었습니다.
https://m.yes24.com/Goods/Detail/119001159
행동 데이터 분석 - 예스24
‘정말 고객이 우리 광고 메일을 보고 서비스를 구독할까?’‘연령이 높은 고객이 구매하는 상품은 따로 있을까?’‘무엇이 고객의 행동을 유발하는지’에 대한 답을 주는 책!이 책은 단순히
m.yes24.com
책에서 전달하고자 하는 메세지
대부분의 데이터 과학 책들이 엔지니어 또는 마케터와 같이 서로 다른 분야에 있는 실무자가 당면한 문제를 동일한 접근 방식과 도구로 해결할 수 있다고 가정하는데, 이 책은 정확하지만 불투명한 이런 예측 방법을 알아보는 대신에 "무엇이 행동을 유발하는가?" 라는 질문에 답을 설명해주기 위해 만들어졌습니다.
책에서는 데이터를 분석하는데 있어서 크게 2가지에 대해 설명하고 있다.
1. 데이터 자체를 목적으로 하기보다는 데이터를 인간의 심리와 행동을 들여다보는 렌즈로 바라보는 행동과학적인 사고방식
2. 여러 요인 사이의 인과관계를 알아내고 관계성이 얼마나 강한지 측정하는 인과관계 분석 도구 모음
Chapter 1. 인과 - 행동 프레임워크
응용분석의 핵심 목표는 인간의 행동을 변화시키려면, 무엇이 행동을 유발하는지를 이해해야합니다. 이를 위해 책에서는 인과-행동 프레임워크를 제안합니다. 각 책의 장은 서로의 요소와 관계에 대해서 설명하는 형식으로 진행됩니다.
데이터 분석에는 기술 분석(설명), 예측, 인과관계 3가지로 나눠볼 수 있는데 인과관계의 대부분은 인간의 행동에 대한 분석이 많습니다. 하지만 이러한 인간의 행동을 분석하는데에는 여러가지 어려움이 있습니다.
인과관계 분석 대상의 문제 : 인간은 복잡한 존재다.
- 여러 요인에 영향을 받는다.
- 상황에 따라 다르다. (작은 변화만 있어도 환경이 달라지면 결과를 예측하기 어렵다.)
- 가변적이다. (완전히 동일해보이는 환경이라도 반복적으로 주어지면 매번 굉장히 다른 행동을 보일 수 있다.)
- 혁신적이다. (한번도 하지 않았던 행동을 할 수도 있다.)
- 전략적이다. (사람은 다른 사람의 행동과 의도를 추론하고 반응하기에 이를 고려해 행동할수도 있다.)
인과관계를 분석하는 도구인 회귀 분석에서 일어나는 문제점
회귀분석은 예측에도 사용되지만, 분석에도 사용된다. 회귀분석으로 사용되는 데이터를 가지고 결과만 보게되면 이는 인과관계에 사용되고, 회귀분석에 사용된 데이터에 해당하지 않은 새로운 값에 대해서 회귀식을 적용하면 그것이 예측이 된다.
또한 회귀분석을 어떻게 하냐에 따라서 예측에 적합한 회귀분석일수도 인과관계를 파악하기에 적합한 회귀분석일수도 있다.
인과관계를 파악하기에 적합한 회귀분석이란 "주어진 독립변수"와 "종속변수"와의 관계에 집중해야하고 회귀계수가 정확한 관계의 계수를 가질 수 있도록 설계해야 합니다.
1. 변수간의 관계에 있어서 발생할 수 있는 문제점 : 교란변수
온도와 아이스크림 판매량을 회귀분석 돌려보니 오른쪽 회귀분석 결과가 나왔다면, 회귀식이 의미하는 바는 기온이 1도 오를때마다 아이스크림 매출이 1,145 달러씩 늘어난다는 것을 의미합니다.
이걸 믿고 유난히 더운 10월에 모델의 예측에 따라 아이스크림 재고를 미리 늘리는 것이 옳은 판단일까요? 사실 예측을 실패한 이유는 온도외에도 여러 예측에 결정적인 영향을 미치는 요인이 고려되지 않았기 때문입니다.
사실 온도가 높을 때 아이스크림 매출이 높았던 것은 바로 학생들이 학교를 가지 않은 여름방학 기간이 실제 원인이었던 것입니다. 이를 판매시점이 기온과 매출의 관계를 교란하는 교란변수라고 부릅니다.
2. 너무 많은 변수를 활용한 문제
다중공선성 문제가 발생하는데 이는 다양한 변수가 상호간에 상관관계를 가질 경우에 가질 수 있는 문제를 의미합니다. 수식으로 표현하면 설명변수에 해당하는 변수들이 상호간에 상관관계를 가지게 된다면, 특정 변수는 또하나의 식으로 표현할 수 있고 이렇게 계산하게 되면 최소제곱법을 통해 도출한 계수들을 이해하기 어렵다.
3. 독립적인 변수를 여러개 사용하더라도 발생할 수 있는 문제
벅슨의 역설(Berkson's paradox)은 통계학에서 발생하는 흥미로운 현상으로, 두 변수가 서로 독립적일 때조차 이들 중 하나 또는 둘 모두에 대한 조건부 선택이 이루어질 경우, 이 두 변수 사이에 부정적 상관관계가 나타날 수 있다는 것을 말합니다. 이 역설은 통계적 편향의 한 예로, 잘못된 결론으로 이끌 수 있는 상황을 설명합니다.
벅슨의 역설은 통계적 분석에서 선택 편향(selection bias)의 중요한 예를 제공합니다. 연구에서 특정 조건이나 기준에 의해 샘플이 선택되는 경우, 실제로는 독립적인 두 변수가 상관관계를 가지는 것처럼 잘못된 결론을 이끌어낼 수 있습니다. 따라서, 통계적 분석을 수행할 때는 이러한 편향을 인식하고 적절히 처리하는 것이 중요합니다.
해결책은 아래 정도가 있긴 한데 이 장에서는 사실 변수간의 관계가 인과관계 해석에 있어서 어떤 문제들을 일으킬 수 있는지 예시로 드는 정도만 설명한다.
해결책)
전체 인구에 대한 데이터를 사용하거나, 적어도 선택 편향을 고려하여 데이터를 분석하는 것이 필요합니다. 또한, 상관관계와 인과관계를 구분하는 것이 중요하며, 통계적 모델을 설계할 때 이러한 편향 가능성을 염두에 두어야 합니다.
예시)
가장 일반적인 예시 중 하나는 병원에서의 환자 진단과 관련된 경우입니다. 두 가지 질병 A와 B가 있고, 이 두 질병이 서로 독립적이라고 가정해봅시다. 그런데 병원에서는 A나 B 중 최소한 하나의 질병을 가진 환자만을 관찰합니다. 이 조건하에서는 A와 B가 부정적으로 상관관계를 가지는 것처럼 보일 수 있습니다. 즉, A 질병을 가진 환자들은 B 질병을 덜 가지고 있어 보이고, 반대도 마찬가지입니다. 이는 A와 B 중 하나도 가지고 있지 않은 인구가 제외되기 때문입니다.
Chapter 2. 행동 데이터를 이해하는 방법
1. 행동에 대한 정의
우리가 변화시키려는 행동은 우선 마음에서부터 시작한다.
우리가 하려는 프로젝트에 대해서 각각의 변수가 어떤 요소에 해당하는지 정의하고 이를 명확히 하는 것이 가장 중요하며, 측정할 수 없는 것들이 대부분이기 때문에 이에 대해서 정성/정량적으로 분석을 할 수 밖에 없다.
Chapter 3. 인과관계 다이어그램의 개요
사실 몇가지를 제외하면 상관관계는 인과관계를 의미한다. 두 변수 사이의 체계적인 관계를 관찰하고 그 관계가 우연의 일치 때문일 가능성을 배제한다면 이 관계를 유발하는 요인이 반드시 존재해야합니다. 따라서 단순한 상관관계는 해결되지 않은 인과구조를 의미한다는 것이고 이를 해결하기만 하면 우리는 인과관계를 발견할 수 있다.
앞서 우리는 인과-행동 프레임워크에 대해 언급했는데 이번 챕터에서는 인과관계 다이어그램에 대해 배운다.
구성 요소
위의 그림이 인과관계에서 볼 수 있는 대부분의 특성들을 정리해놓은 구조이다. 간단하게 보면 화살표가 가리키는 쪽이 x -> y라고 한다면 x가 원인이고 y가 결과로, y = alpha * x + beta로 표현할 수 있다는 것이다.
1. 분기
- 하나의 원인이 두개의 결과에 영향을 주는 경우이다.
2. 사슬
- 하나의 원인이 하나의 결과에 영향을 주고 그 결과가 다른 결과의 원인이 되어서 두개의 인과관계가 연결된 것을 사슬이라고 부른다.
- 앞에서 y = alpha * x + beta로 표현할 수 있다고 했기 때문에 사실 이 사슬을 하나의 인과관계로 축소시킬 수도 있다.
3. 충돌
- 두개의 원인이 하나의 결과에 영향을 주는 것으로 이렇게 되었을 때 하나의 변수가 영향을 주는 것을 발라내기가 어려워서 부정적인 의미의 충돌을 사용한다.
4. 교란 변수
- 저기서 짙은 파란색으로 적혀있는 단맛 선호도는 교란변수로, 관찰되지 않은 변수로 우리가 아이스 커피 매출에 대한 원인으로 기온을 선정하는 과정에서 단맛 선호도라는 변수를 인지하지 못해서 단일 인과관계로만 인식할 수 있어서 교란이라는 단어를 쓴다.
5. 오차
- 오차는 동그라미로 되어 있는데 사실 이건 모든 인과관계에서 표현되기 때문에 따로 표시하지는 않는다.
6. 경로
- 화살표의 방향과 상관없이 변수 사이에 화살표가 있으며 연결된 길에 중복된 변수가 없을 때 변수 사이에 경로가 있다고 말한다.
여러 인과관계의 적용
1. 변수 분할
위의 기온 -> 아이스 커피 -> 도넛 매출로 이어지는 인과관계를 아이스 커피의 종류를 나누어서 인과관계를 분리할 수 있다.
2. 변수 집계 : 위와 반대 메커니즘으로 변수를 합쳐서 하나의 인과관계로 만들 수도 있다.
3. 순환 관계 : 위의 인과관계는 모두 한방향으로 흘렀지만 Cycle을 도는 경우도 있다. 이는 특이한 케이스고 최대한 끊어내서 해석하는 것을 목표로 한다.
- 대체 효과 : 동일한 경쟁 제품에 대해서 하나의 제품이 떨어지면 나머지 경쟁 제품이 오르는 효과로 이는 서로 인과관계에 영향을 준다.
- 피드백 루프 : 사람이 환경의 변화에 반응하여 행동을 수정하는 것으로 대기줄 고객 수 <-> 평균 구매 대기시간 <-> 열려있는 계산대 대기줄의 수로 사람이 많아지면 평균 구매 대기 시간을 줄이기 위해서 점원이 열려있는 계산대를 늘려서 대기줄 고객 수를 줄이는 등 사람이 개입해서 서로가 영향을 주게 한다.
'데이터 분석, 통계 > 유튜브, 책, 아티클 정리' 카테고리의 다른 글
[Book] 행동 데이터 분석 8장 ~ 12장 : 실험 설계와 분석/분석 도구 (0) | 2023.12.16 |
---|---|
[Book] 행동 데이터 분석 6장 ~ 7장 : 데이터 분석 (0) | 2023.12.15 |
[Book] 행동 데이터 분석 4장 ~ 5장 : 인과관계 다이어그램과 교란 해소 (0) | 2023.12.14 |
[book] 데이터 분석과 비판적사고 (1) | 2023.11.04 |