
[논문 원문 링크]
https://www.frontiersin.org/articles/10.3389/fmed.2021.678047/full
* 들어가며
이 논문은 임상의(Clinicians)를 대상으로 big data, data science,
causal inference 개념을 의학(medicine) 분야에 어떻게 적용할 수
있을 지에 대해 리뷰한 논문이다. 이 포스팅에선 이 논문의 내용을
개괄적으로 한국어로 요약하였음.
Introduction
Can "Big Data" Transform Medicine?
빅데이터가 의학을 바꿀 수 있을 것인가?
- 빅데이터로 precision medicine으로의 전환이 가능
- Data 자체만으로는 유용하지 않음
- Cause-and-effect (원인과 결과)를 명확히 규명해서
- 최적의 예방이나 치료 전략을 세워야 하며,
- 이점(benefit)이 가장 클 subgroup을 식별해야 함
- 유용한 data를 얻기 위해서는
- 데이터의 수집, 분석 후 action이 있어야 함
- causal reasoning, knowledge, algorithm이 필요
Modern Statistics and Causal Inference in the Past Century
이전의 통계학과 인과 추론
- Ronald A. Fisher의 영향으로
- 관측 연구(observational studies)가 아닌 무작위 실험(randomized experiments)을 통해서만 인과(cause and effect) 연구가 가능하다고 통계학적으로 간주됨
- 의학 분야에서는 무작위 실험이 윤리적으로 불가능한 경우가 많음
- 예: 폐 기능에 영향을 끼치는 환경적 요인에의 노출 여부
- 따라서, 일반적인 양적 추론(formal quantitative inference)의 적용이 어려웠음
Data Science in the Twenty-First Century
21세기의 데이터 과학
- Health information이 급속히 증가함
- 예: 임상 전자 기록(electronic health record), wearable device에서 얻는 생체 정보 등
- Data Scientist 직군의 증가
- 인과 관계 분석을 적용하는 것에 정통적인 통계학자에 비해 열려 있음(open)
- 역학과 통계 방법론(epidemiological and statistical methods) 도 활발히 연구됨
GOALS OF DATA SCIENCE AND THE LADDER OF CAUSATION
Association and Prediction
연관성과 예측
- Causal ladder의 첫 단계를 구성
- Association (연관성)
- 관측된 데이터에서 변수(variables) 사이의 확률적 관계(probabilistic relationship)를 도출
- 예: 어릴 때(early childhood) 쌕쌕거리는 증상이 계속 생기는 것(recurrent wheezing) 은 천식의 발병과 연관이 있다.
- Prediction (예측)
- 이런 확률적 연관성(the derived probabilistic association)을 바탕으로 미래에 있을 결과에 대한 조건부 확률(the conditional probability of outcome)을 예상함
- 예: the Asthma Predictive Index, genetic marker를 활용한 천식 고위험군의 예측
- 관련 분석 tool
- basic computations
- multivariable regression model에서의 correlation coefficients
- Bayesian networks
- Supervised machine learning algorithms (random forests, neural network, deep learning)
- Challenges
- 설명하기 어려움(Explainability issue)
- 전환하기 어려움(Transportability issue: 다른 질문, 집단, 환경에 대한 적용, 전환이 힘듬)
- 인과 추론의 부족(the lack of causal reasoning)
Intervention
개입
- Causal ladder의 두번째 단계
- 인과 관계에 대한 믿음(causal belief)에 따라 관측한 결과를 바꿔보고자 함
- 예: 위중한 천식의 악화를 줄이기 위해 생물학적 제재(biologic agent)로 치료함
- 이 치료의 직접적인 효과 추정을 위해 무작위 대조 임상시험(randomized controlled trials)이 필요
- 할당된 치료법에 모든 환자들이 완전히 따른다거나 중간 탈락으로 인한 selection bias나 confounding 요소가 없어야 함
- Stable unit treatment values assumption (SUTVA) 도 만족해야함
- 의학 분야에서는 여러 이유로 무작위 대조 임상 연구의 수행이 불가능함
- 이런 개입 연구(Intervention experiment)로 얻어진 데이터만으로는 여러 한계가 있음
Counterfactual Causal Inference
반사실적 인과 추론
- Causal ladder의 세번째 단계
- individual causal effect의 counterfactual definition
- 한 개인의 반사실적 결과(counterfactual outcome)가 다르다면, 치료/노출이 그 결과에 대해 인과적 영향(causal effect)이 있다고 볼 수 있다.
- 대개는 한 개인에 대한 인과적 영향(individual causal effects)은 식별할 수 없고 집단에서의 평균 인과적 영향(the average causal effect in a population)을 파악함
- 관련 분석 Tool
- Multivariable regression models adjusting for confounders
- inverse-probability weighting for time-varying treatments
- targeted learning leveraging machine learning algorithms
- Causal inference
- Domain knowledge가 필요
- 치료(treatment), 결과변수(outcome), 교란인자(confounder)와 같이 인과 구조(causal structure of interest)를 설정하기 위해서는 그 분야에 대한 domain 지식이 있어야 함
- 인과적 영향(Causal effects)은 data-driven association model만을 사용해서는 평가할 수 없음
MAJOR CAUSAL INFERENCE TOOLS
Causal Diagram: Codifying Causal Assumptions and De-Confounding
- Causal Diagram
- 관련된 domain knowledge와 causal structure에 대한 선 가정(a priori assumptions)을 질적으로 정리한 tool
Causal Mediation: Search for Mechanism
- 알려진 원인과 영향(known cause and effect) 관계를 더 잘 이해하기 위해 사용
- Causal mediation
- total effect, mediation or indirect effect, direct effect 간의 connection(mechanism)을 찾으려고 함
- 반사실적 인과추론(Counterfactual causal inference)을 사용하여 이런 intermediate mechanism을 정량화함
Mendelian Randomization: Instrument of Nature
- 대규모의 GWAS(genome-wide association study) data 사용이 가능해짐
- 예: Modifiable exposure인 정신질환(mental illnesses)과 health outcome인 천식에 대한 genetic variant의 영향에 대한 연구에 Mendel의 "Law of the independent assortment" 를 적용하여 교란인자의 영향(the risk of confounding)을 감소(mitigate)시키고자 함
- Instrumental variable로 GWAS data를 적용
Heterogeneous Treatment Effects: Differentiating Apples From Oranges
- RCT 연구에서는 해당 집단(target population)에 대한 평균적 치료 효과(the average treatment effect)를 추정하고자 함
- 하지만 effect modification이 종종 존재함
- quantitative (하위군별로 효과의 크기가 다르다거나)
- qualitative (하위군 별로 효과가 없거나 효과의 방향이 달라짐)
- Machine Learning approach(e.g random forest)를 health data에 적용해서
- 1) 치료 효과가 다른 subgroup을 식별하거나
- 2) 다양한 질병(various disease conditions, 당뇨병 등)이 있는 하위군의 개별 치료 효과(individual treatment effect)를 추정함
- Precision medicine의 적용에 도움
- 고유한 임상적 특성(unique set of clinical characteristics)이 있는 환자들에게 맞춘 예방, 치료 전략(preventive and treatment strategies)을 세우는 데 사용 가능
THE WAY FORWARD
Toward Better Decision-Making and Precision Medicine
- Data-driven prediction algorithms
- 어떤 판단(decision)을 내릴 지에 대한 정보를 제공 가능
- 예: 천식 악화로 인한 이전의 응급실 방문 횟수가 많을수록 재입원할 가능성이 높아진다
- 즉, 이전 응급실 방문 횟수는 재입원 여부에 대한 예측인자(predictor)임
- Causal inference
- 응급실 방문 횟수가 천식 악화의 원인(cause)이 아님
- 특정 환자군에 대한 최적의 예방/치료 전략을 식별하는 것은 인과추론(causal inference)의 과정임
- 연관성/예측(association/prediction) vs 인과추론(causal inference)적 작업(task)
- domain knowledge와 반사실적 추론(counterfactual reasoning)이 알고리즘 내에 부호화(codified in algorithms) 되었을 때에는 구분이 명확하지 않음
- 알려진 명확한 규칙과 온전한 정보(예:체스)가 있는 단순계(simple system)에서는 어떤 개입(hypothetical intervention)에 대한 결과(outcome)를 예측하는 것이 가능하나
- 의학 분야처럼 사용가능한 데이터(available data)에 불확실성(uncertainties)이 있고 non-deterministic rule을 따르는 복잡계(complex system)의 경우는 다름.
- 예: 심한 모세기관지염(severe bronchiolitis)이 있는 신생아에 대한 신약의 causal effect를 평가하려고 할 때,
- 호흡기 관련 바이러스, 숙주와 면역 인자, 환경이 함께 작용하는 이 병의 인과 구조(the causal structure)에 대한 지식이 불충분함
- 따라서, 우선은 상대적으로 좁은 범위의 질문(즉, 모세기관지염이 있는 신생아들에 대한 이 신약의 평균 치료 효과)에 대한 답을 얻은 후
- 좀 더 넓은 범위의 질문(즉, 모세기관지염이 있는 하위군(subgroups)들에서 서로 달라지는 치료 효과(heterogeneous treatment effect)가 있는 지)에 대한 답을 얻으려고 함.
- 데이터과학적 접근을 통해 이전에는 한 질병(single disease entity)이라고 여겨졌던 모세기관지염에 여러 아형(different subtypes)이 존재한다는 것과 천식 발병 위험성(higher risk of developing asthma)이 더 높은 유형이 있다는 것을 알게 됨
- 이 정보를 통해 예방적 조치(prevention)와 새로운 치료법의 개발이 가능하게 됨
Future Challenges
- 1. 방법론적인 문제(methodological challenges)
- 표준적인 인과 추론의 가정(standard causal inference assumption)을 어떻게 만족시킬 것인가?
- 다양한 수준(multiple levels)에서의 여러 molecular mediators를 어떻게 모형화(model)할 것인가?
- 복잡계(complex system)에서 시간에 따라 변하는 반응(time-varying feedbacks)을 어떻게 다룰(handle) 것인가?
- 2. 이런 데이터 과학을 통해 도출된 증거(evidence)가 확정적(confirmatory)인 것이 아님
- 정통적인 실험 연구와 무작위 임상시험(RCT)도 여전히 함께 의과학(medical sciences)과 임상 관례(clinical practice)의 발전과 개선에 사용되어야 함 (각 방법론이 서로를 완전히 대체하는 것이 아님)
- 3. 의학분야에서 널리 사용되기 위한 milestone의 설정이 필요함
- 임상의, 데이터 과학자, 예방의학자 등의 여러 구성원들로 이루어진 team(inter-disciplinary teams)이 필요
- Precision medicine의 발전을 위해서 임상의들이 데이터를 해석하고 해석한 결과(finding)를 실제 임상(clinical practice)에 적용할 수 있도록 꾸준한 노력이 필요함 (원문의 Table 4에 교육 resource list를 제공함)
Summary
- 의학 분야에 data science를 적용하기 위한 goal, task, tool을 요약, 소개함
- Domain knowledge와 인과 추론(causal reasoning)의 적용이 precision medicine 분야에 필요함
[논문 원문 링크]
https://www.frontiersin.org/articles/10.3389/fmed.2021.678047/full
* 들어가며
이 논문은 임상의(Clinicians)를 대상으로 big data, data science,
causal inference 개념을 의학(medicine) 분야에 어떻게 적용할 수
있을 지에 대해 리뷰한 논문이다. 이 포스팅에선 이 논문의 내용을
개괄적으로 한국어로 요약하였음.
Introduction
Can "Big Data" Transform Medicine?
빅데이터가 의학을 바꿀 수 있을 것인가?
Modern Statistics and Causal Inference in the Past Century
이전의 통계학과 인과 추론
Data Science in the Twenty-First Century
21세기의 데이터 과학
GOALS OF DATA SCIENCE AND THE LADDER OF CAUSATION
Association and Prediction
연관성과 예측
Intervention
개입
Counterfactual Causal Inference
반사실적 인과 추론
MAJOR CAUSAL INFERENCE TOOLS
Causal Diagram: Codifying Causal Assumptions and De-Confounding
Causal Mediation: Search for Mechanism
Mendelian Randomization: Instrument of Nature
Heterogeneous Treatment Effects: Differentiating Apples From Oranges
THE WAY FORWARD
Toward Better Decision-Making and Precision Medicine
Future Challenges
Summary