[임상통계] [논문 소개] Big Data, Data Science, and Causal Inference: A Primer for Clinicians

Tea_Tasting_Lady
2021-07-24
조회수 651

[논문 원문 링크]

https://www.frontiersin.org/articles/10.3389/fmed.2021.678047/full


* 들어가며 

이 논문은 임상의(Clinicians)를 대상으로 big data, data science, 

causal inference 개념을 의학(medicine) 분야에 어떻게 적용할 수

있을 지에 대해 리뷰한 논문이다. 이 포스팅에선 이 논문의 내용을 

개괄적으로 한국어로 요약하였음. 


Introduction 

Can "Big Data" Transform Medicine?

빅데이터가 의학을 바꿀 수 있을 것인가?

  • 빅데이터로 precision medicine으로의 전환이 가능
  • Data 자체만으로는 유용하지 않음 
    • Cause-and-effect (원인과 결과)를 명확히 규명해서
      • 최적의 예방이나 치료 전략을 세워야 하며,
      • 이점(benefit)이 가장 클 subgroup을 식별해야 함
  • 유용한 data를 얻기 위해서는
    • 데이터의 수집, 분석 후 action이 있어야 함
    • causal reasoning, knowledge, algorithm이 필요 


Modern Statistics and Causal Inference in the Past Century

이전의 통계학과 인과 추론 

  • Ronald A. Fisher의 영향으로
    • 관측 연구(observational studies)가 아닌 무작위 실험(randomized experiments)을 통해서만 인과(cause and effect) 연구가 가능하다고 통계학적으로 간주됨
  • 의학 분야에서는 무작위 실험이 윤리적으로 불가능한 경우가 많음
    • 예: 폐 기능에 영향을 끼치는 환경적 요인에의 노출 여부  
    • 따라서, 일반적인 양적 추론(formal quantitative inference)의 적용이 어려웠음


Data Science in the Twenty-First Century

21세기의 데이터 과학

  • Health information이 급속히 증가함
    • 예: 임상 전자 기록(electronic health record), wearable device에서 얻는 생체 정보 등 
  • Data Scientist 직군의 증가
    • 인과 관계 분석을 적용하는 것에 정통적인 통계학자에 비해 열려 있음(open)
    • 역학과 통계 방법론(epidemiological and statistical methods) 도 활발히 연구됨


GOALS OF DATA SCIENCE AND THE LADDER OF CAUSATION

Association and Prediction

연관성과 예측

  • Causal ladder의 첫 단계를 구성
  • Association (연관성)
    • 관측된 데이터에서 변수(variables) 사이의 확률적 관계(probabilistic relationship)를 도출
    • 예: 어릴 때(early childhood) 쌕쌕거리는 증상이 계속 생기는 것(recurrent wheezing) 은 천식의 발병과 연관이 있다. 
  • Prediction (예측)
    • 이런 확률적 연관성(the derived probabilistic association)을 바탕으로 미래에 있을 결과에 대한 조건부 확률(the conditional probability of outcome)을 예상함 
    • 예: the Asthma Predictive Index, genetic marker를 활용한 천식 고위험군의 예측
  • 관련 분석 tool
    • basic computations
      • multivariable regression model에서의 correlation coefficients
    • Bayesian networks
    • Supervised machine learning algorithms (random forests, neural network, deep learning)
      • Challenges
        • 설명하기 어려움(Explainability issue)
        • 전환하기 어려움(Transportability issue: 다른 질문, 집단, 환경에 대한 적용, 전환이 힘듬)
        • 인과 추론의 부족(the lack of causal reasoning)


Intervention

개입

  • Causal ladder의 두번째 단계
  • 인과 관계에 대한 믿음(causal belief)에 따라 관측한 결과를 바꿔보고자 함
  • 예: 위중한 천식의 악화를 줄이기 위해 생물학적 제재(biologic agent)로 치료함
    • 이 치료의 직접적인 효과 추정을 위해 무작위 대조 임상시험(randomized controlled trials)이 필요
      • 할당된 치료법에 모든 환자들이 완전히 따른다거나 중간 탈락으로 인한 selection bias나 confounding 요소가 없어야 함
      • Stable unit treatment values assumption (SUTVA) 도 만족해야함
  • 의학 분야에서는 여러 이유로 무작위 대조 임상 연구의 수행이 불가능함 
  • 이런 개입 연구(Intervention experiment)로 얻어진 데이터만으로는 여러 한계가 있음


Counterfactual Causal Inference

반사실적 인과 추론

  • Causal ladder의 세번째 단계
  • individual causal effect의 counterfactual definition
    • 한 개인의 반사실적 결과(counterfactual outcome)가 다르다면, 치료/노출이 그 결과에 대해 인과적 영향(causal effect)이 있다고 볼 수 있다. 
    • 대개는 한 개인에 대한 인과적 영향(individual causal effects)은 식별할 수 없고 집단에서의 평균 인과적 영향(the average causal effect in a population)을 파악함 
  • 관련 분석 Tool
    • Multivariable regression models adjusting for confounders
    • inverse-probability weighting for time-varying treatments
    • targeted learning leveraging machine learning algorithms 
  • Causal inference
    • Domain knowledge가 필요
      • 치료(treatment), 결과변수(outcome),  교란인자(confounder)와 같이 인과 구조(causal structure of interest)를 설정하기 위해서는 그 분야에 대한 domain 지식이 있어야 함
    • 인과적 영향(Causal effects)은 data-driven association model만을 사용해서는 평가할 수 없음


MAJOR CAUSAL INFERENCE TOOLS

Causal Diagram: Codifying Causal Assumptions and De-Confounding

  • Causal Diagram
    • 관련된 domain knowledge와 causal structure에 대한 선 가정(a priori assumptions)을 질적으로 정리한 tool 


 Causal Mediation: Search for Mechanism

  • 알려진 원인과 영향(known cause and effect) 관계를 더 잘 이해하기 위해 사용
  • Causal mediation
    • total effect, mediation or indirect effect, direct effect 간의 connection(mechanism)을 찾으려고 함
      • 반사실적 인과추론(Counterfactual causal inference)을 사용하여 이런 intermediate mechanism을 정량화함


Mendelian Randomization: Instrument of Nature

  • 대규모의 GWAS(genome-wide association study) data 사용이 가능해짐
    • 예: Modifiable exposure인 정신질환(mental illnesses)과 health outcome인 천식에 대한 genetic variant의 영향에 대한 연구에 Mendel의 "Law of the independent assortment" 를 적용하여 교란인자의 영향(the risk of confounding)을 감소(mitigate)시키고자 함
    • Instrumental variable로 GWAS data를 적용   


Heterogeneous Treatment Effects: Differentiating Apples From Oranges

  • RCT 연구에서는 해당 집단(target population)에 대한 평균적 치료 효과(the average treatment effect)를 추정하고자 함
    • 하지만 effect modification이 종종 존재함
      • quantitative (하위군별로 효과의 크기가 다르다거나)
      • qualitative (하위군 별로 효과가 없거나 효과의 방향이 달라짐)
  • Machine Learning approach(e.g random forest)를 health data에 적용해서
    • 1) 치료 효과가 다른 subgroup을 식별하거나
    • 2) 다양한 질병(various disease conditions, 당뇨병 등)이 있는 하위군의 개별  치료 효과(individual treatment effect)를 추정함
  • Precision medicine의 적용에 도움
    • 고유한 임상적 특성(unique set of clinical characteristics)이 있는 환자들에게 맞춘 예방, 치료 전략(preventive and treatment strategies)을 세우는 데 사용 가능


THE WAY FORWARD

Toward Better Decision-Making and Precision Medicine

  • Data-driven prediction algorithms
    • 어떤 판단(decision)을 내릴 지에 대한 정보를 제공 가능
    • 예: 천식 악화로 인한 이전의 응급실 방문 횟수가 많을수록 재입원할 가능성이 높아진다
      • 즉, 이전 응급실 방문 횟수는 재입원 여부에 대한 예측인자(predictor)임
  • Causal inference
    • 응급실 방문 횟수가 천식 악화의 원인(cause)이 아님
    • 특정 환자군에 대한 최적의 예방/치료 전략을 식별하는 것은 인과추론(causal inference)의 과정임 
  • 연관성/예측(association/prediction) vs 인과추론(causal inference)적 작업(task)
    • domain knowledge와 반사실적 추론(counterfactual reasoning)이 알고리즘 내에 부호화(codified in algorithms) 되었을 때에는 구분이 명확하지 않음
    • 알려진 명확한 규칙과 온전한 정보(예:체스)가 있는 단순계(simple system)에서는 어떤 개입(hypothetical intervention)에 대한 결과(outcome)를 예측하는 것이 가능하나
    • 의학 분야처럼 사용가능한 데이터(available data)에 불확실성(uncertainties)이 있고 non-deterministic rule을 따르는 복잡계(complex system)의 경우는 다름. 
      • 예: 심한 모세기관지염(severe bronchiolitis)이 있는 신생아에 대한 신약의 causal effect를 평가하려고 할 때, 
        • 호흡기 관련 바이러스, 숙주와 면역 인자, 환경이 함께 작용하는 이 병의 인과 구조(the causal structure)에 대한 지식이 불충분함 
        • 따라서, 우선은 상대적으로 좁은 범위의 질문(즉, 모세기관지염이 있는 신생아들에 대한 이 신약의 평균 치료 효과)에 대한 답을 얻은 후
        • 좀 더 넓은 범위의 질문(즉, 모세기관지염이 있는 하위군(subgroups)들에서 서로 달라지는 치료 효과(heterogeneous treatment effect)가 있는 지)에 대한 답을 얻으려고 함. 
        • 데이터과학적 접근을 통해 이전에는 한 질병(single disease entity)이라고 여겨졌던 모세기관지염에 여러 아형(different subtypes)이 존재한다는 것과 천식 발병 위험성(higher risk of developing asthma)이 더 높은 유형이 있다는 것을 알게 됨
          • 이 정보를 통해 예방적 조치(prevention)와 새로운 치료법의 개발이 가능하게 됨   

Future Challenges

  • 1. 방법론적인 문제(methodological challenges)
    • 표준적인 인과 추론의 가정(standard causal inference assumption)을 어떻게 만족시킬 것인가?
    • 다양한 수준(multiple levels)에서의 여러 molecular mediators를 어떻게 모형화(model)할 것인가?
    • 복잡계(complex system)에서 시간에 따라 변하는 반응(time-varying feedbacks)을 어떻게 다룰(handle) 것인가?
  • 2. 이런 데이터 과학을 통해 도출된 증거(evidence)가 확정적(confirmatory)인 것이 아님
    • 정통적인 실험 연구와 무작위 임상시험(RCT)도 여전히 함께 의과학(medical sciences)과 임상 관례(clinical practice)의 발전과 개선에 사용되어야 함 (각 방법론이 서로를 완전히 대체하는 것이 아님)
  • 3. 의학분야에서 널리 사용되기 위한 milestone의 설정이 필요함
    • 임상의, 데이터 과학자, 예방의학자 등의 여러 구성원들로 이루어진 team(inter-disciplinary teams)이 필요
    • Precision medicine의 발전을 위해서 임상의들이 데이터를 해석하고 해석한 결과(finding)를 실제 임상(clinical practice)에 적용할 수 있도록 꾸준한 노력이 필요함 (원문의 Table 4에 교육 resource list를 제공함)


Summary

  • 의학 분야에 data science를 적용하기 위한 goal, task, tool을 요약, 소개함
  • Domain knowledge와 인과 추론(causal reasoning)의 적용이 precision medicine 분야에 필요함  
0 2

Data Chef.

datachef00@gmail.com

ⓒ 2023 Data Chef.

Hosting by I'M Datachef

Data Chef.
e-Mail

datachef00@gmail.com


Seoul, Korea  ㅣ  Biz License 000-00-00000  ㅣ Hosting by Datachef.