인과관계추론

[Causal Inference 2023] Week 1. Intro

hozy연 2024. 1. 14. 21:00

본 내용은 유튜브 인과추론의 데이터과학의  Korea Summer Workshop on Causal Inference 2023 영상을 요약한 내용입니다. 

https://www.youtube.com/@causaldatascience

 

인과추론의 데이터과학

데이터 분석을 통해 원인과 결과를 탐구하는 인과추론 (causal inference)을 다룹니다.

www.youtube.com

 

*Correlation vs. Causation

 위의 연구에 따르면, 추천 시스템과 구매 사이에 인과 관계가 있다고 보지는 않음. 뿐만 아니라 아래의 넷플릭스의 연구에서는 더 좋은 성능을 가진 추천시스템을 사용하여 추천한 컨텐츠 보다 단순히 인기 있는 컨텐츠를 상위에 올려놨을 떄 더 나은 비즈니스 퍼포먼스로 이어진다는 결과가 나옴. 

 

 

따라서 요즘 IT 기업들이  A/B test를 적용하여 인과관계를 알아보고자 시도하는 중임.

 

아래의 연구를 보면 같은 데이터로 연구했지만 다른 결과를 나타내고 있다. 과연 어떤 결과가 맞다고 할 수 있을까?
<Simpson's paradox>
즉, 인과 관계는 단순히 데이터로 알 수 있는 것이 아니다. / 관련 지식, 배경 등을 고려해야함 (데이터 이외의 정보들)
**Causal Structure 과 같은 구조를 세우는 것이 중요함**

 

 

아래 연구를 보면 이전에는 다각화가 기업과 음의 연결관계가 있다고 주장. 하지만 방법론이 발전되면서 기업위기에 있었던 기업들이 다각화 방법을 썼었고 이로 인해 기업과 음의 관계가 있었다는 것을 발견. 즉, 인과관계상 양의 관계, 또는 관계가 없을 수도 있다는 연구결과가 나오게 됨 

 


* ML/AI and Causal Inference

 

ML/AI 는 패턴을 예측하는 것에 특화되어있음. 따라서 causal inference의 중요성은 커지고 있음 

Causal Inference에서 중요한건 알고리즘이 아님. 알고리즘이 안 중요하다는 말은 아니지만 causal framework 와 함께 시행되어야 좋다는 것임. 최근 이 둘을 결합한 연구방법론이 나오고 있음. 

즉, 통계모형을 추정하는 것보다는 우리가 관심있는 인과적 효과를 명확히 규명하고 이러한 효과를 추정가능한지, 가능하다면 어떤 조건과 과정이 필요한지를 정의하는 것이 중요. 그 다음 어떤 통계적 모형이나 머신러닝 모형이 필요한지를 결정하는 것이 중요해짐. --> 데이터를 보기 전에 모형을 설립하는 것이 중요함. 

 

* Primary Goal of Causal Inference

조작 가능한 원인들이 나와야함 --> 성별은 조정할 수 있는 변수가 X. 따라서 인과관계 연구에서는 적절한 연구 디자인은 아님. 따라서 조절 가능한 요인들 아래 사진의 파랑, 빨강 참고. 

* 접근 방법이 다르면 결과가 다르게 나타난다 .

Safety Inspections 를 예로 들어보면 
Input은 Risk Factors : 안전에 위협이 되는 건물들, 요인들을 생각하게 됨 (원인들)
Output은 Urban Safety: 원인에 대한 연구보다는 예측 결과에 따른 효과적인 scheduling이라고 볼 수 있음
식당의 안정성을 정확히 예측하기 위해 원인을 꼭 고려하지 않아도 좋은 예측을 만들어 낼 수도 있음. 원인을 거의 고려하지 않음
따라서 원인을 제대로 파악하는데 어려움을 겪을 수 있다는 것.! 이상한 intervention이 있을 수 있음

eWOM (Electronic word of mouth) 를 예로 들면, 
Input 은 focal user's purchases (posting)
Output 은  Peers' Purchases (reaction) on social media
input에 대한 intervention(1. 인플루언서 홍보 2. 타겟팅된 광고 등..) 이 필요하다면 인과관계가 필요함
하지만 예측이 목적이라면 굳이 인과관계가 필요없음

같은 데이터를 쓰지만 목적에 따라 방법론이 다른 것 뿐이다

 

* 대표적 인과관계 Research Question!

 

 

* Intervention 은 Causal Inference의 핵심이다. (메커니즘 이해의 중요성!)

- Intervention Strategy를 짜는데 메커니즘이 중요함!

레몬이 괴혈병을 치료한다는 것을 발견했으나 그것의 이유가 산이라고 생각. 따라서 레몬이 상하지 않도록 끓여서 치료를 했는데 이는 비타민 C 를 파괴하게 됨. 메커니즘 이해의 중요성..!

오염의 결과가 물인지 공기인지에 따라  Intervention의 차이를 가져오게 된다! 

 

 * Right Tool for the Right Question

- 꼭 인과관계 방법론이 전부는 아니다. 질문에 맞는 툴이 필요하다!

방법론 자체만으로 좋은 연구라고 할 수 없다(방법론 연구가 아니라면). 좋은 데이터 분석을 위한 필요조건이다! 충분조건X
좋은 연구가 있다고 하더라고 방법론이 이상하면 망함 

Two Factor Theory:
조직 구성원의 만족과 불만족에 미치는 영향이 다르다
(참고: https://blog.naver.com/wnqorrb/110069449835)
방법론은 제대로된 연구 가치를 얻기 위한 당연한  hygiene factor! 방법론이 제대로 되었다고 해서 좋은 연구라고 할 수는 없는 노릇..