* US FDA Guidance "Non-Inferiority Clinical Trials to Establish Effectiveness"의 전문 번역으로 몇 년전에 제가 업무 관련해서 번역했던 것입니다.
US FDA Guidance 원문서 파일 링크
유효성 설정을 위한 비열등성 임상 시험
I. 서론 Introduction
본 문서는 우월성 연구 디자인(superiority study design)(약물 대 위약(drug versus placebo), 용량 반응(dose response) 또는 활성 약물에 대한 우월성(superiority to an active drug) 등)을 사용할 수 없기 때문에 약물이나 생물제제(biologics)의 유효성 증거(evidence of the effectiveness)를 제공하기 위해 시험 약물 신청(IND), 신약 신청(NDA), 생물제제 허가 신청(BLA) 또는 보완 신청을 제출하는 의뢰자(sponsors)와 신청자(applicants)에게 비열등성(NI) 연구 디자인(non-inferiority study designs)의 적합한 사용에 관한 지침[1]을 제공한다.
이 지침은 시험 약물에 대한 유효성을 입증하고자 하는 NI 연구가 어떤 경우에 해석 가능한 결과를 제공할 수 있는지, NI 마진을 어떻게 선택해야 할지, 그리고 NI 가설을 어떻게 검정(test)할 지에 대한 조언을 제공하고 있다.
이 지침은 약물의 안전성(safety of a drug)을 평가하고자 하는 NI 연구 디자인 사용에 관한 권고사항을 제공하지 않는다.
일반적으로 FDA의 지침 문서(guidance documents)는 법적으로 강제성 있는 책임(legally enforceable responsibilities)을 설정하지 않는다. 대신 지침 문서는 주제에 관한 기관의 현재 생각을 설명하므로 권고로서만 봐야 한다. 단, 특정한 규제적, 법적 요구사항(regulatory or statutory requirements)이 인용되는 경우는 예외이다. FDA 지침 문서에서 ‘한다’(should)라는 단어의 사용은 의무사항이 아니라 제안이나 권고를 의미하는 것이다.
[1] 이 지침의 목적에 따라, 약물(drugs)이라고 지칭한 것들은 달리 명시되어 있지 않는 한, 인체 약물과 치료적 생물학적 제제(human drugs and therapeutic biologic products)를 모두 포함한다. 논의된 대부분의 개념은 광범위하게 적용될 수 있긴 하지만, 연구 평가변수가 항체의 농도인 경우 NI 마진 설정과 같은 백신과 관련된 특정 문제는 CBER의 자문이 필요하다.
II. 배경 Background
적절하고 잘 대조된 연구(adequate and well-controlled studies)에 관한 FDA의 규정(21 CFR 314.126)은 유효성의 증거를 제공하는 4종류의 동시 대조 시험을 설명하고 있다. 이것들 중 3가지(위약, 무처치 및 용량-반응 대조 시험)는 시험 약물이 대조군(위약, 무처치 또는 시험 약물의 더 낮은 용량)보다 우수하다는 것을 입증하고자 하는 우월성 시험이다. 4번째 종류- 활성 치료(활성 대조)(active treatment(active control))와 비교도 신약이 대조군보다 더 유효하다(more effective)는 것을 입증하려는 목적을 갖고 있다면 우월성 시험일 수 있다. 그러나 보다 보편적으로 이러한 연구의 목표는 새로운 시험 약물도 역시 유효하다는 결론을 뒷받침하기 위해 현재 연구에서 활성 대조군의 유효성 가정과 과거 연구에서의 성과(performance)를 기반으로 하여 새로운 치료법과 활성 대조군 치료법 간 차이가 미미하다는(활성 대조군의 알려진 유효성을 확인할 수 있을 정도로 미미함) 것을 입증하는 것이다. 신약이 유효하다는 결론을 뒷받침할 수 있도록 이러한 연구를 설계하고 결과를 어떻게 해석할 지를 정하는 것은 매우 어려운 문제이다.
시험 약물의 우월성을 입증하는 것이 아니라 새로운 치료법이 수용 불가능한 정도(unacceptable extent)까지 열등하지는 않다는 것을 입증하고자 하는 활성 대조 시험을 한 때 임상적 동등성 시험(clinical equivalence trials)이라고 불렀다. 그러나 NI(비열등성) 시험의 목적은 그 신약이 동등하다는 것(equivalence)을 입증하는 것이 아니라 대조약보다 실질적으로 나쁘지 않다(not materially worse)는 것을 입증하는 것이다. 따라서 관심사는 한 방향이다. 신약은 대조약보다 더 나을 수도 있으므로 최소한 열등하진 않지만 동등하지 않을 수도 있다.
우월성 시험과 NI(비열등성) 시험 간의 중요한 차이점은 적절하게 설계되어 수행된 우월성 시험이 차이를 입증하는 데 성공할 경우, 추가적인 가정 없이(편향이 없어야 한다(lack of bias)는 가정을 제외하고) 온전히 해석 가능하다는 점이다. 즉, 결과 자체가 자명하며 추가적인 연구 정보가 전혀 필요 없다. 대조적으로, NI 연구는 해당 연구에서는 측정되지 않는 어떤 것, 즉, 활성 대조군이 그 NI 연구에서 기대된 효과를 나타냈다는 것을 아는 데 달려있다. 이 경우 그 시험은 특정 크기인 위약과의 차이를 입증한 능력이라고 규정할 수 있는 어세이 민감도(assay sensitivity)를 지닌다고 말할 수 있다. “성공적인” NI(비열등성) 시험, 즉 치료 간 차이가 용인 가능한 정도로 작다는 것이 입증된 시험은 어세이 민감도를 지니거나 아니면 지니지 않을 수도 있으므로 시험 약물이 유효하다는 결론을 뒷받침하거나 아니면 뒷받침하지 않을 수도 있다. 따라서 활성 대조군이 NI(비열등성) 시험에서 전혀 효과를 지니지 않은 경우(즉, 어떠한 기대된 효과도 지니지 않은 경우) 대조군과 시험 약물 간의 극히 적은 차이가 있음을 배제하는 것조차 의미가 없으며 시험 약물이 유효하다는 증거를 제공하지 못한다. (어세이 민감도에 관한 추가 논의는 III.D 절을 참조하라.) 위약 그룹이 없는 상황에서, 그 시험이 어세이 민감도를 지녔는지 여부를 아는 것은 외부(연구 내 정보가 아님) 정보(external(not within-study) information)에 심히 의존하며, 이는 NI 연구에 과거 대조 연구 특성들(the characteristics of a historically controlled trial)과 일부 겹친다.
1985년 이래로 FDA 규정에서 NI(비열등성) 시험이 해석 가능하려면, 활성 대조군이 그 시험에서 기대되는 효과를 지녔는지를 아는 것이 매우 중요하다는 점이 인지되었다. 이에, 1985년 이래 변한 사항이 없는 21 CFR 314.126(a)(2)(iv)에서는 다음과 같이 명시한다.
만약 시험의 목적이 시험 약물과 대조 약물의 유사성(similarity)을 입증하는 것인 경우, 그 연구의 보고서는 치료법들 간의 차이를 탐지할 수 있을 그 연구의 능력(ability)을 평가해야 한다. 시험 약물과 활성 대조군의 유사성은 두 약물 모두 효과가 있거나 아니면 둘 중 어느 것도 효과가 없다는 것을 의미할 수 있다. 그 연구 분석에서 예를 들면 이전의 위약 대조 연구의 활성 대조 약물 결과를 참조하여 이 연구에서 그 약물이 유효하다고 왜 간주되어야 하는 지를 설명해야 한다. 이 지침은 네 부분으로 구성된다.
- 신약의 유효성을 설정하기 위해 NI(비열등성) 연구의 사용과 연관된 규제, 연구 디자인, 과학 및 통계 관련 문제(regulatory, study design, scientific, and statistical issues)에 대한 일반적 논의
- 이러한 몇몇 문제에 대한 보다 세부적인 집중. 특히 NI(비열등성) 마진을 구하고 비열등성을 검정하는데 사용되는 통계적 접근법(statistical approach)
- NI(비열등성) 연구에 관해 자주 묻는 질문
- NI(비열등성) 마진을 구하고 비열등성을 검정하기 위한 성공 사례와 실패 사례 4개
III. 비열등성 연구에 대한 일반 고려사항 General Considerations for Non-Inferiority Studies
A. 비열등성 가설 The Non-Inferiority Hypothesis
위약-대조 시험에서 귀무가설(H0)은 시험 약물(T)의 이익적 반응(beneficial response)이 위약(P)에 대한 반응 이하라는 것이다. 또, 대립가설(Ha)은 시험 약물에 대한 반응이 P보다 크다는 것이다. 따라서:
Ho: T ≤ P; T – P ≤ 0
Ha: T > P; T – P > 0
대부분의 경우, 치료 효과에 대한 검정은 T-P에 대해 양측 95% 신뢰구간의 하한(단측 97.5% 신뢰구간의 하한에 해당함)이 >0 이라는 것을 입증하는 것이다. 이러한 결과는 시험 약물의 효과가 0보다 더 크다는 것을 입증한다 (Figure 1 참조).
1. 효과의 점추정치는 2이며 95% CI 하한은 1이다. 결론: 약물은 효과가 있으며 1 이상의 효과를 지닌다.
2. 효과의 점추정치는 2이며 95% CI 하한은 <0이다. 결론: 약물은 효과가 있는 것으로 입증되지 않았다.
3. 효과의 점추정치는 0이고 95% CI 하한은 0보다 훨씬 아래이다. 결론: 약물은 효과가 있는 것으로 입증되지 않았다.
시나리오 2와 3의 결론에 차이가 없을지라도 시나리오 2에서의 신뢰구간 너비와 치료 차이의 크기는 이 시험 약물이 효과가 전혀 없다고 결론 내리기 전에 또 다른 연구(아마도 규모가 더 큰 연구)의 시행을 장려할 수도 있다.
NI(비열등성) 연구에서, 목표는 시험 약물의 효과가 활성 대조의 효과와 충분히 비슷하다는 것을 입증함으로써 시험 약물이 효과 있다는 것을 입증하는 것이다. 연구에서는 위약 그룹이 없기 때문에 활성 대조의 효과가 측정되지는 않지만 효과가 있을 것이라는 가정은 해야 한다. 연구의 목표는 시험 약물(T)의 효과가 NI(비열등성) 마진이라고 불리는 특정한 양 즉, M만큼 활성 대조(C)의 효과보다 열등하지 않다는 것을 입증하는 것이다.
귀무가설과 대립가설은 열등성의 귀무가설과 비열등성의 대립가설에 대응된다. 예를 들면:
Ho: C – T ≥ M (T는 M 이상으로 대조(C)보다 열등하다.)
Ha: C – T < M (T는 M 미만으로 대조(C)보다 열등하다.)
사전에 미리 지정한 NI(비열등성) 마진(M)과 C-T에 대한 양측 신뢰구간의 상한을 비교하여 상기 가설에 대한 통계 검정을 제공한다. 상한이 M 미만인 경우 C 대비 T의 비열등성이 성립된다.
M(가장 큰 가능 값)에 대한 한 가지 선택은 과거의 무작위 대조 시험을 기반으로 하여 위약 대비 활성 대조의 완전히 확인된 효과와 동일하게 이것을 설정하는 것이다. M에 대한 이러한 선택을 가지고(M1이라고 함) 대조 약물이 NI(비열등성) 연구에서 이러한 수준의 효능(efficacy)을 달성한다고 가정하면, 비열등성의 연구결과는 시험 약물이 0보다 더 큰 효과를 가진다는 것을 의미한다 (Figure 2). 보다 일반적인 선택은 M1의 임상적으로 적절한 부분(some clinically relevant portion of M1)과 동일한 크기로 M을 설정, 즉, 임상적 판단(clinical judgement)을 근거로 하여 시험 약물과 함께 보존해야 하는 대조 약물 효과의 부분과 동일하게 M을 설정하는 것이다.
- C-T의 점추정치는 0이며, 이는 C와 T의 효과가 동일함을 의미한다. C-T에 대한 95% CI의 상한은 1로서 M1보다 훨씬 낮고, NI가 입증된다.
- C-T의 점추정치는 C에 우호적이며, C-T에 대한 95% CI의 상한은 >2로서 M1 이상이고, NI가 입증되지 않는다.
- C-T의 점 추정치는 0이고, 이는 동일한 효과를 의미한다. 하지만 C-T에 대한 95% CI의 상한은 >2(즉 M1 이상)이므로 NI가 입증되지 않는다.
- 점추정치는 T에 우호적이며, NI가 입증된다. 하지만 우월성은 입증되지 않는다.
- 점추정치는 T에 우호적이며, 우월성과 NI가 입증된다.
- C-T의 점추정치는 1이며 대조에 우호적이다. C-T에 대한 95% CI의 상한은 <M1이며, 이는 NI를 입증한다(C의 전체 효과가 사라지지 않았다). 하지만 동시에 C-T에 대한 95% CI의 상한은 0 이상이며, 이는 T가 NI 표준을 충족할지라도 C보다는 사실상 열등하다는 것을 의미한다.
M1의 결정은 NI(비열등성) 시험을 설계하는데 있어서 중요한 단계로서 어려운 경우가 많다. 따라서 이러한 결정이 이 지침의 주요사항(focus)이다. M1은 동시 위약 그룹(concurrent placebo group)이 없기 때문에 NI(비열등성) 연구에서 직접적으로 측정할 수 없다.
이것은 가급적이면 위약-대조 시험에서 활성 대조의 과거 성과(past performance)를 기반으로 하여 추정한 후 현재의 시험 환경과 과거 시험 조건의 비교를 기반으로 하여 NI(비열등성) 연구에도 활성 대조 효과가 유지된다고 가정한 후 추정되어야 한다 (III.D 절 참조).
마진 M1의 선택은 중요한 실질적 결과(practical consequences)를 가져온다. 마진이 작을수록, C-T에 대한 95% 신뢰구간의 상한이 낮아지게 되며 비열등성을 설정하기 위해 필요한 표본 크기는 커져야 한다. C-T의 95% CI의 상한이 M1 미만이라는 것을 보여줌으로써 시험 약물이 어느 정도의 효과를 지닌다는 것(즉, 효과 > 0)을 입증할 수 있다. 그러나 전술한 바와 같이 대상 마진(the margin of interest)은 보통 M1보다 더 작고 (따라서 대조 약물의 임상적 이익(clinical benefit)이 적절한 비율로 보존된다는 것을 보여줌), 이 경우 이것을 M2라고 한다. 이러한 예상의 근거가 아래의 III.C.4 절에 설명되어 있다.
B. 비열등성 설계의 사용 이유 Reasons for Using a Non-Inferiority Design
우월성 설계 대신 NI 활성 대조 연구 디자인을 활용하는 것에 대한 일반적인 이유는 윤리적인 이유이다.
특히 시험에서 연구되는 질환에 대해 환자가 이용 가능한 중요한 이익(benefit available to patients)(예: 생명을 살리거나(life-saving) 비가역적인 부상(irreversible injury)의 예방)을 제공해주는 효과적인 치료가 있기 때문에 위약, 무처치 대조군 또는 매우 낮은 용량의 활성 약물을 사용하는 것이 윤리적이지 않은 경우 이 설계를 선정한다.
위약 대조를 활용할 수 있는 지 여부는 이용 가능한 치료에 의해 제공되는 이익의 성격에 달려 있다. 국제조화회의 지침 E10: ‘임상 시험에서 대조 그룹 선정과 이와 연관된 문제’(ICH E10: Choice of Control Group and Related Issues in Clinical Trials)를 다음과 같이 명시한다.
연구 모집단(study population)에서 사망이나 비가역적 이환율(irreversible morbidity)과 같은 심각한 위해(serious harm)를 예방하기 위해 이용 가능한 치료가 알려져 있는 경우 일반적으로 위약 대조를 사용하는 것은 부적절하다.
그러나 표준 치료(standard therapy)가 너무 심각한 독성(toxicity)을 가지고 있어서 많은 환자가 이 치료를 받기를 거부하는 경우와 같이 간헐적인 예외적 상황(occasional exemption)은 있다. 심각한 위해가 없는 다른 경우에는 일반적으로 환자들이 결과적으로 불편함을 느낄지라도 위약-대조 시험에 참가하도록 환자에게 요청하는 것이 윤리적이라고 간주된다. 단, 환경은 강압적이지 않아야 하고(non-coercive) 환자들은 이용 가능한 치료와 치료 지연으로 인한 결과에 대해 충분히 고지 받아야 한다 (ICH E10; 13-14페이지).
이러한 윤리적인 이유 외에도, 치료들을 비교하거나 어세이 민감도를 평가하기 위해 가능하다면 위약 대조와 연계하여 활성 대조를 포함해야 하는 그 외 이유가 있을 수 있다 (III.D 절 참조).
Caregivers, 제3의 납부자(third party payers) 및 몇몇 규제당국(regulatory authorities)은 치료법들의 비교적 유효성(comparative effectiveness)을 강조해 왔으며, 그로 인해 두 치료법들을 비교하는 연구가 많아졌다. 이러한 연구는 비교적 유효성 주장을 위한 임상적 근거(clinical basis)에 대한 정보를 제공하며, 이는 치료의 비용 유효성(cost effectiveness)을 평가하는데 유용할 수 있다. 활성 비교자(active comparator)에 위약 그룹이 포함되는 경우 그 연구가 상당한 차이(differed substantially)가 있는 치료를 구분할 수 있었는지(예: 활성 약물 대 위약)를 판단하는 것이 가능해진다. 이러한 비교적 유효성 연구는 NI(비열등성) 연구와는 반드시 구분되어야 하며, 이는 이 문서의 주요 중점사항이다.
‘비열등’(noninferior)이라는 단어는 특별한 의미로 여기에서 사용된다. 이 문서에 나와 있는 방법은 비열등성을 보이는 새 치료가 효과 있다는 것(이것이 활성 비교자만큼 효과 있다는 것이 아님)을 입증함을 목적으로 한다. 새 치료는 활성 비교자만큼 효과 있다거나 아니면 거의 동일하다는 결론을 정당화하지 않고 (위약보다 우월한) 유효성 기준(standard of effectiveness)을 충족할 수도 있다.
C. 비열등성 마진 The Non-Inferiority Margin
전술한 바와 같이 NI(비열등성) 연구는 시험 약물(T)이 활성 대조 약물(C)보다 열등한 양(C-T)이 사전에 지정된 NI(비열등성) 마진(M)보다 더 적다는 것을 입증하고자 한다. M은 NI(비열등성) 연구에서 활성 대조 약물의 추정되는 전체 효과(presumed entire effect)보다 클 수 없으며, 전체 활성 대조 약물의 효과를 기반으로 한 마진은 일반적으로 M1이라고 불린다.
M1은 (위약 그룹 없이) NI(비열등성) 시험에서 측정되는 것이 아니라 활성 대조 약물의 과거 성과를 기반으로 하여 추정된다는 것을 유념해야 한다. NI(비열등성) 연구의 품질(quality of the NI study)에 대한 평가 및 이전 연구의 효과와 현재 NI(비열등성) 연구의 특성에 대한 철저한 비교를 기반으로 효과(effect)가 현재 연구에 존재한다고 가정된다. NI(비열등성) 연구를 통한 결론의 타당성(validity)은 M1의 선정 및 현재의 NI(비열등성) 연구와 이것과의 관련성에 달려 있다.
예를 들면, NI(비열등성) 마진이 10으로 선정되고 연구가 T의 유효성을 입증하는 것처럼 보이면서 10의 차이(하지만 그보다 더 적은 차이는 아님)를 실제로 배제하지만 이 연구에서 C의 진짜 효과가 실제로는 10 이하인 경우, 그 연구가 비열등성을 입증했다는 결론은 부정확했을 것이다. 따라서 이러한 효과가 시험에서 발생했다는 합당한 보증(assurance) (즉, 어세이 민감도가 존재함(the presence of assay sensitivity))과 더불어 M1의 선정은 NI(비열등성) 연구에서 의미 있는 정확한 해답을 얻는데 있어서 매우 중요하다.
위약 그룹이 없는 경우 어세이 민감도를 결코 입증할 수 없기 때문에 어세이 민감도에 대한 과거 증거(historical evidence)가 필수적이지만 활성 대조 약물이 NI(비열등성) 연구에서 추정된 효과(presumed effect)를 가질 수 있도록 조치(measures)를 취해야 한다 (III.A.5 절 참조). 이러한 것은 NI(비열등성) 마진의 세심한 선정과 더불어 유효하고 해석 가능한 결과의 가능성(likelihood)을 높여줄 것이다.
연구에서 활성 대조 약물의 실제 치료 효과보다 더 큰 마진을 선택한 결과로 신약이 효과 있다는 거짓 결론(바람직하지 않은 결과임(undesirable public health outcome))일 수 있기 때문에 마진의 선정뿐만 아니라 그러한 마진 이상으로 나와 활성 대조 약물보다 시험 약물의 열등성 정도(degree of inferiority)를 배제하기 위해 사용되는 통계 분석에서 매우 보수적인 경향이 있다.
이러한 것은 일반적으로 NI(비열등성) 시험에서 C-T에 대한 95% 양측 신뢰구간의 상한이 M1보다 더 작도록 함으로써 이룰 수 있다. 이러한 구간의 활용은 전술한 NI 가설을 검정할 때 0.025의 단측 검정 크기(알파 레벨(alpha level))에 상응한다.
그러나 C-T에 대한 신뢰 구간의 상한은 우월성 시험에서 위약 대비 약물의 효과에 대한 95% 신뢰구간의 하한이 유일하게 관련된 값이 아닌 것과 같이 유일한 관심 측정치(measurement of interest)가 아니다. 치료 효과의 점추정치와 그 신뢰구간의 너비도 또한 관련 있는 값이다. 하지만 95% 신뢰구간의 상한은 보통 0.05의 양측 검정 크기(알파 레벨)가 전통적으로 우월성 시험에서 성공을 규정하는데 사용되는 기준인 것과 같이 NI(비열등성) 연구에서 시험 약물의 유효성을 판단하는 용도로 활용할 수 있다.
C-T에 대한 95% 신뢰구간 상한은 M1과 연계하여 시험 약물이 사실상 0이상의 효과를 가진다는(즉, 활성 대조 약물의 모든 효과 손실(loss of all the effect)을 배제함) 것을 타당하게 높은 수준으로 보증(assurance)하는 용도로 활용할 수 있다.
시험에 활용되는 NI(비열등성) 마진이 NI(비열등성) 연구에서 활성 대조 약물의 전체 가정되는 효과(entire assumed effect)(M1)보다 더 클 수는 없을지라도 NI(비열등성) 마진에 대해, M2라고 불리는 그보다 더 적은 값을 선택하는 것이 일반적이고 보통 바람직하다.
M1 대비 비열등함을 보이는 것은 시험 약물이 0 이상의 효과를 가졌다는 보증을 제공하기는 하지만 대부분의 경우 그러한 것만으로는 시험 약물이 임상적으로 허용할 수 있는 효과를 가졌다고 결론을 내리기에 충분하지 않다.
NI(비열등성) 연구를 수행하는 주요 이유가 위약 그룹을 포함시키는 것이 비윤리적이기 때문이라는 것을 유념하라. 활성 대조 약물은 유익한 효과를 가지며 위중한 질병(serious illness)이 있는 피험자에게 그러한 이익을 주지 않는 것은 비윤리적이다.
동일한 이유로 시험 약물이 그러한 활성 대조 약물의 효과 대부분을 잃는 것은 보통 수용할 수 없다. 따라서 NI(비열등성) 연구에서는 임상적으로 수용할 수 있는 가장 큰 효과 손실(the largest loss of effect)을 반영하는 보다 작은 마진(M2)을 선택하는 것이 일반적이다.
이러한 것은 (항생제 시험(antibiotic trials)에서 일반적인) 효과의 절대 차이(absolute difference in effect)로 설명할 수 있거나 아니면 (심혈관 결과 시험(cardiovascular outcome trials)에서 일반적인) 대조군이 제공하는 위험 감소(risk reduction)의 분율(fraction)로 설명할 수 있다. 시험 약물이 (예를 들면 안전성이나 2차 평가변수(endpoint)에 대해) 몇몇 중요한 이점을 가진 것으로 입증된 경우 M2에 대해 보다 큰 값이 임상적으로 정당화될 수도 있다는 것을 유념하라.
M2의 활용은 연방식품약물화장품법(the Federal Food, Drug, and Cosmetic Act)에 포함되지 않은 FDA “비교적 유효성”(comparative effectiveness) 기준을 나타낸다는 우려가 있어왔다. 1995년 4월에 법률에 따른 상대적 유효성의 역할을 설명할 때 클린턴 대통령(President Clinton)과 고어 부통령(Vice President Gore)은 다음과 같이 말했다.(“약물과 의료기기의 규제 재발명”, 국가성과검토의 일부(“Reinventing Regulation of Drugs and Medical Devices”, part of the National Performance Review)
"그러나 특정한 경우에 유효성이 더 적은 것(less effectiveness)이 환자나 공공(the public)에게 위험할 수 있을 때 신제품이 이용 가능한 대체 치료법(alternative therapies)보다 덜 효과적인지를 고려하는 것이 중요할 수도 있다.
예를 들면, 새로운 치료가 다음과 같을 때 이미 시판 승인된 대체치료만큼 효과적인지는 public health protection를 위해 매우 중요하다.
- 치료할 질병이 생명을 위협하거나 비가역적 이환(irreversible morbidity)(예: 뇌졸중 또는 심장마비)을 야기할 수 있을 때
- 치료할 질병이 다른 사람의 건강에 심각한 결과를 야기하는 전염병일 때(예: 성전염성질환(sexually transmitted disease)) "
The reinvention statement는 FDA의 정책부국장(FDA’S Deputy Commissioner for Policy)인 William Schultz에 의해 FDA의 입장으로 1995년 8월 1일 관보(Federal Register of August 1, 1995(60 FR 39180, 39181))에 게재되었다.
M의 이러한 2가지 버전을 설명하기 위해 사용되는 정의는 다음과 같다.
- M1 = NI(비열등성) 연구에 있을 것이라고 추정되는 활성 대조 약물의 전체 효과(entire effect)
- M2 = 활성 대조 약물과 비교하여 시험 약물의 가장 큰 임상적으로 허용 가능한 차이 (열등성 정도(degree of inferiority))
M1은 활성 대조 약물에 대한 과거 경험(historical experience)을 기반으로 하여 추정할 수 있다.
현재 NI(비열등성) 시험에 대한 이것의 관련성(relevance)은 다음 사항을 기반으로 한다.
- 활성 대조 약물의 현재 효과(current effect)가 활성 대조 약물 효과를 추정하는데 사용된 과거 연구에서 관측된 것과 유사할 가능성(likelihood)에 대한 평가 (일관성 가정(the constancy assumption))
- 특히 활성 대조 약물과 신약 간 차이를 줄일 수 있는 연구 디자인 및/또는 수행(conduct)에서의 결함(deficiencies)을 찾으면서 NI(비열등성) 시험 질(quality)에 대한 평가
차이(즉, 우월성)를 입증하고자 하는 시험에서, 두 번째 요소의 치료 간 차이의 이러한 축소(diminution)는 “0(null)으로 향하는 편향”이지만 비열등성 시험의 경우 이것은 “대안으로 향하는 편향(bias toward the alternative”(즉, 비열등성)이라는 것을 유념하라. 이러한 두 번째 요소 때문에 몇몇 경우 M1이 미리 지정되어 있을 지라도 “할인(discount)”되어야 하지만(즉, 그보다 더 작은 값을 사용함) 필요한 할인양(amount of discounting)은 NI(비열등성) 연구가 완료될 때까지 알지 못할 수도 있다.
M2의 선정은 임상적 판단(clinical judgement)의 문제이긴 하지만 M2는 활성 대조 약물의 효과가 미미한 경우에도 M1보다 결코 더 클 수 없으며 임상적 판단은 그보다 더 큰 차이가 임상적으로 중요하지 않다고 주장할 수도 있다.
임상적 판단이 합리적일지라도 NI(비열등성) 마진으로서 M1보다 더 큰 M2를 선정하는 것은 시험 약물이 효과가 있다는 결론을 허용하지 않는다.
앞에서 설명한 바와 같이 M1보다 더 큰 활성 대조 약물과 시험 약물 간 차이를 배제하는 것은 유효성 결론을 뒷받침하는 중요한 결과이다. 이 분석은 매우 엄격한 접근이 필요하다.
즉, M1보다 더 큰 차이(C-T)는 높은 수준의 통계적 보증(statistical assurance)으로 배제시킬 필요가 있다. M2는 임상적 판단을 의미하기 때문에 상한이 여전히 M1보다 훨씬 더 적은 한 M2보다 약간 더 큰 C-T에 대한 95% 상한을 해석할 때 더 큰 유연성(flexibility)이 있을 수 있다 (Figure 3 참조).
- C-T 점추정치 = 0 및 95% CI의 상한 < M2. 이러한 것은 시험 약물이 효과 있으며 대조 약물 효과의 손실이 수용 불가할 정도로 큼을 적합하게 배제한다는 것을 의미한다 (NI 입증됨).
- C-T 점추정치가 C를 선호함; 95% CI의 상한 < M1 하지만 > M2. 이러한 것은 시험 약물 효과 > 0이지만 대조 약물 효과의 수용 불가한 손실이 배제되지 않았다는 것을 의미한다.
- C-T의 점추정치는 0이며 95% CI의 상한 < M1 하지만 이것은 M2보다는 약간 더 크다. 따라서 미리 지정된 M2의 손실은 배제되지 않았지만 연구가 대조 약물 효과가 적절히 보존되었음을 입증했는지 여부는 임상적 판단 사항이다.
- C-T 점추정치는 C를 선호하며 95% CI의 상한 > M1. 이러한 것은 연구가 시험 약물에 대한 유효성 증거를 제공하지 못한다는 것을 의미한다.
D. 어세이 민감도 Assay Sensitivity
어세이 민감도(Assay sensitivity)는 NI 임상 시험의 필수 속성(essential property)이다.
어세이 민감도는 시험에서 지정된 크기(specified size)의 치료들 간 차이를 탐지할 그 시험의 능력이다. 달리 표현하자면, 어세이 민감도는 위약이 연구에 포함되었더라면 최소 M1의 대조 약물-위약 차이가 있었을 것이라는 것을 의미한다.
앞에서 설명한 바와 같이 M1 선정과 시험이 어세이 민감도를 가진다는 결론(즉, 활성 대조 약물이 최소 M1의 효과를 가졌을 것이다)은 3가지 고려사항을 기반으로 한다.
- 약물 효과에 대한 민감도의 역사적 증거(Historical evidence of sensitivity to drug effects)
- 역사적 시험과 새 NI(비열등성) 시험의 유사성 (일관성 가정)(the constancy assumption)
- 새 시험의 품질 (치료 간 차이를 최소화하는 경향이 있는 결함(defects)을 배제함)
1. 약물 효과에 대한 민감도의 역사적 증거 (HESDE) Historical Evidence of Sensitivity to Drug Effects (HESDE)
HESDE는 적합하게 설계되어 과거에 시험을 수행했으며 특정한 활성 치료법(specific active treatment)(일반적으로 새로운 NI(비열등성) 연구에서 사용되는 것 또는 몇몇 경우에는 하나 이상의 약학적으로 밀접하게 관련된 약물)를 활용했던 선행 연구(prior studies)가 위약 (또는 그 외 어떤 치료)보다 이 치료가 우수하다는 것을 정기적으로 입증했다는 것을 의미한다.
과거 연구에서의 연구결과가 일관되면 위약 대비 약물 효과에 대한 신뢰할 수 있는 추정(reliable estimate)을 가능하게 한다. 효과 규모의 추정(the estimate of the size of the effect)은 반드시 과거 결과의 가변성(variability)을 고려해야 하며, 어떤 임상시험에서 나타난 가장 큰 효과(the largest effect)나 모든 적절한 시험들의 메타 분석에서의 점추정치(point estimate) 조차도 확실히 재현될 것이라고 가정해서는 안 된다. 역사적 데이터 분석은 IV 절에서 추가로 논의할 것이다.
HESDE는 수많은 대증요법(symptomatic treatments)(우울증, 초조, 불면증, 협심증, 증상적 심부전, 과민성 장질환 증상 및 통증에 대한 치료)에 대해선 측정을 할 수가 없다. 왜냐하면 그러한 증상에 맞게 잘 설계되어 실시된 연구조차도 위약과 유효한 약물(effective drug)을 구분하지 못하는 경우가 많기 때문이다.
이 경우 활성 대조 약물이 어떤 해당 NI(비열등성) 연구에서 위약(하나인 경우)보다 우월함을 입증했다고 가정할 수 없기 때문에 이러한 적응증(indications)에 대한 약물의 NI(비열등성) 연구는 무의미(non-informative)할 수 있다. 또한 이러한 문제는 결과 연구(outcome studies)에서 유효성에 대한 평가에 부정적으로 영향을 미칠 수도 있다.
예를 들면, 아스피린의 경우 가장 큰 규모의 위약-대조 시험(AMIS, 아스피린 심근경색증 연구(the Aspirin Myocardial Infarction Study); 예시 2 참조)은 그 외 모든 시험이 아스피린에 우호적인 결과가 나왔을 지라도 아스피린의 효과를 입증하지 못했다. 유사하게, 30개 이상의 경색 후(post-infarction) 베타 블로커(beta-blocker) 시험에서 미미한 수의 시험들만이 생존이나 그 외 심혈관적 이익(survival or other cardiovascular benefit)을 유의하게 향상시켰다는 것이 입증되었다.
2. 역사적 연구와 현재 NI(비열등성) 시험의 유사성 및 “일관성 가정”에 대한 이것의 관계 Similarity of the Current NI Trial to the Historical Studies and Its Relationship to the "Constancy Assumption"
HESDE가 활성 대조 약물의 효과(이것은 이후 새로운 NI(비열등성) 연구를 위해 M1을 선정하는 근거로서 역할을 할 것이다)를 추정하는 용도로 활용할 수 있다는 결론은 NI(비열등성) 연구가 중요한 모든 연구 디자인과 관련하여 과거 연구와 충분히 유사하며 활성 대조 약물 효과에 영향 미칠 수 있는 특성(features)을 수행한다고 결론 짓는 것이 적합한 경우에만 이끌어낼 수 있다. 이러한 결론을 “일관성 가정”(“constancy assumption”)이라고 한다. 설계 특징(the design features of interest)은 다음과 같다.
- 환자 인구의 특성
- 중요한 병행 치료법
- 연구 평가변수에 대한 정의와 확인
- 활성 대조 약물의 복용량
- 선정 기준(Entry criteria)
- 분석 접근법(Analytic approaches)
예를 들면 심부전 사망률(heart failure mortality)에 대한 엔지오텐신전환효소(ACE) 억제제(angiotensin-converting enzyme(ACE) inhibitor)의 효과는 HESDE를 설정하면서 약물을 이뇨제와 (종종) 디곡신(digoxin)에 추가한 연구에서 반복적으로 입증되었지만, 이러한 연구가 수행된 이후로 치료법의 진전(evolution)은 ACE 억제제의 현재 효과(present-day effect)에 대한 우리의 이해에 관해 의문을 불러온다.
이러한 연구가 이루어진 시점 이후로, 그 외 약물치료(베타 블로커(beta blockers), 스피로노락톤(spironolactone))가 표준으로 사용되었다. 우리는 이러한 2가지 등급의 약물을 포함한 요법(regimen)에 ACE 억제제를 추가할 때 과거의 효과가 여전히 있을지 여부에 대해 알지 못한다. 유사하게, 심부전 사망률에 대한 혈전용해제(thrombolytic)의 효과는 증상 이후 얼마나 빨리 약물이 투여되는지, 항응고제(anticoagulants)와 혈소판억제제(platelet inhibitors)의 병행 사용 그리고 지질저하 약물(lipid-lowering drugs)의 사용에 의해 좌우될 수 있다.
M1 선정에 대한 탄탄한 근거(sound basis)를 제공하기 위해 역사적 연구와 새로운 NI(비열등성) 연구는 중요한 모든 면에서 최대한 거의 동일해야 한다. 역사적 시험에서의 평가변수가 새 시험에서의 평가변수와 유사하고 평가도 유사하게 이루어졌을 것이라는 합당한 보증을 제공하는 것은 평가변수가 표준화되고 객관적일 때 더욱 용이하다. 활성 대조 약물의 효과는 단일 평가변수(예: 사망률)에 대한 것이나 아니면 합성 평가변수(composite)(예: 사망, 심장마비, 뇌졸중)에 대한 것일 수 있지만 (다시 말하자면) 이러한 것에 대한 측정과 평가는 시간이 흐른 뒤에도 합리적 수준에서 일관성을 지녀야 한다.
NI(비열등성) 연구에서 사용되는 평가변수는 NI(비열등성) 연구에서 사용되는 새로운 평가변수에 대한 활성 대조 약물의 효과의 규모(size of the effect)를 추정하기 위해 역사적 연구의 데이터가 이용 가능한 경우 반드시 활성 대조 약물의 원래 시험(original trials)에서 사용된 것일 필요는 없다. 예를 들면 역사적 연구에서 사망률 평가변수(mortality endpoint)를 사용했을지라도 고품질 데이터를 확보할 수 있다면 그 연구를 활용하여 사망 + 입원의 평가변수에 대한 효과 규모를 계산할 수 있다 (단, 입원을 야기하는 상황이 역사적 연구와 NI(비열등성) 연구에서 유사했다는 것을 확신할 수 있어야 한다).
그러나 가장 큰 역사적 효과를 찾기 위해 평가변수들의 범위(range of endpoints)를 검색하는 것은 수용할 수 없다는 것을 유념하라. 이 경우 NI(비열등성) 연구에서 예상되는 효과의 과다추정(overestimate)이 발생할 수 있다.
일반적으로 질병 정의와 치료에 관해 시간이 지남에 따라 상당한 진전이 있는 경우 또는 역사적 시험에 사용된 방법론이 구식으로 되어버린 경우 일관성 가정은 지지할 수 없기 때문에 NI 설계 사용을 정당화할 수 없다.
NI(비열등성) 연구는 역사적 연구와 대부분 측면에서 유사하게 설계할 수 있을지라도 NI(비열등성) 연구가 완료되고 연구 인구와 반응의 다양한 특성에 대한 평가가 이루어질 때까지 그러한 유사성을 완벽하게 평가하는 것은 불가능할 수 있다.
환자 특성(예: 연령, 성, 위중도(severity))과 관련한 활성 대조 약물 치료 효과의 이질성(heterogeneity)을 알고 있으며 그러한 이질성을 정량화할 수 있는 경우 역사적 연구와 NI(비열등성) 연구에서의 환자 특성의 혼합(mix)이 크게 다르다면 NI(비열등성) 연구에서 활성 대조 약물 효과의 규모 추정을 조절해야 할 수도 있다.
치료 효과의 일관성 속성(the property of constancy)은 치료 효과를 표시하기 위해 어떤 계측법(metric)을 선정하느냐에 따라 달라질 수 있다. 이러한 문제는 IV.B.2.c 절에 심도 깊게 논의되어 있다. 경험에 따르면 결과 사건의 배경율(background rates of outcome events)이 연구 모집단 간 다른 경우 위험비(hazard ratio)이나 상대 위험도(relative risk)와 같은 계측법이 인구에서의 사건율(event rates) 변화에 더 민감한 절대 위험도 차이(absolute risk difference)와 같은 계측법보다 더 안정적일 수 있다.
3. 우수한 연구 품질 Good Study Quality
품질이 불량한 연구 수행은 항상 피해야 하지만 NI(비열등성) 연구의 경우 엉성한 연구 디자인/수행은 비열등성의 대립 가설 쪽으로 편향을 유도하기 때문에 특히 문제가 된다 (추가 논의는 IV.F 절과 ICH E10; 11-12페이지를 참조).
부정확하거나 불량하게 구현된 선정 기준(entry criteria), 낮은 순응도(poor compliance), 연구 대상 약물과 효과가 중첩될 수도 있는 병행 치료(concomitant treatments)의 사용, 부적절한 측정 기술(measurement techniques), 할당된 치료 전달을 못한 오류, 높은 탈락률(high attrition) 또는 추적조사가 잘 이루어지지 않은 것(poor follow-up)과 같은 결함은 연구에서 관측되는 차이 C-T를 줄일 수 있으며, 그로 인해 잠재적으로 비열등성하다는 그릇된 결론(false conclusion of non-inferiority)에 이를 수 있다.
또한 환자가 치료를 받지 않을지라도 환자가 무작위 배정되었던 치료법에 따라 모든 환자를 분석한다는 원칙을 고수하는 ITT (intent-to-treat) 접근법은 (우월성 시험에서 보수적일지라도) NI(비열등성) 시험에서는 반드시 보수적이지는 않으며 비열등하다는 부정확한 연구결과를 초래할 수 있다는 것을 유념해야 한다.
우월성 시험에서는 엉성함(sloppiness)으로 인해 연구 실패(study failure)가 발생할 수 있다. 반면 NI(비열등성) 시험에서의 불량한 품질(poor quality)은 때때로 부정확한, 비열등성이 명백하다는 결과를 야기할 수 있다. 따라서 NI(비열등성) 연구를 계획하고 수행할 때에는 품질에 각별한 주의를 기울여야 한다. 사건(fact) 이후 불량한 품질에 대한 보정(adjustment)은 보통 불가능하다.
E. 통계적 추론 Statistical Inference
NI(비열등성) 마진을 계산하고 NI(비열등성) 연구를 분석하는 것에 관한 다양한 접근법이 IV 절에 상세히 논의되어 있다.
보편적으로 사용되는 고정 마진법(fixed margin method)은 일반적으로 95%-95%법(95%-95% method)이라고 부른다.
처음 95%는 효과를 입증한 역사적 연구를 기반으로 한 대조 약물의 추정 효과(estimated effect)에 대한 신뢰구간(confidence interval)을 의미하며, 두 번째 95%는 NI(비열등성) 연구에서 귀무가설을 검정할 용도로 사용하는 신뢰구간을 의미한다.
여기에서 논의되는 처음 95% 신뢰 하한은 역사적 연구에서 활성 비교자(active comparator)의 평균 효과에 대한 경계(bound for the average effect)이거나 아니면 일관성 가정이 유지될 경우 NI(비열등성) 연구에서의 진짜 효과(the true effect)라는 것을 유념하라.
때때로 이것이 NI(비열등성) 연구에서 비교자(the comparator)의 실제 효과(actual effect)에 대한 하한이며, 초안 지침(draft guidance)(2010년에 발간됨)에서도 이러한 것을 제시하지만, 이것이 옳지 않다.
95% 하한(the 95% lower bound)은 진짜 대조약물 효과(true control effect)에 대한 하한을 규정하지만 NI(비열등성) 연구에서의 실제 효과(actual effect)는 여전히 샘플링 변동(sampling variation)일 가능성이 있다.
실제 효과를 경계 짓기 위해서는, 다른 유형의 구간이 필요하다. ‘예측 구간’(prediction intervals)이라고 알려져 있는 이 구간은 상응하는 신뢰구간(corresponding confidence intervals)보다 훨씬 더 넓다. 그러나 신뢰구간만으로도 현재 목적에 충분하다.
왜냐하면 역사적 연구의 신뢰구간은 위약과 비교된 비교자의 진짜 효과(true effect)를 경계 지으며 NI(비열등성) 연구의 신뢰구간은 비교자와 비교하여 시험 약물의 진짜 효과를 경계 짓기 때문이다. 항상 일관성 가정에 의존하면서, 이러한 것들을 조합하여 위약 대비 시험 약물의 긍정적 효과(positive effect)를 추론할 수 있다.
95%-95% 고정 마진 접근법(이 경우 마진에 대해 위험율(risk ratio)이 아니라 위험 차이(risk difference)를 사용함)은 급성심근경색(acute myocardial infarction, AMI) 치료용 새 혈전용해제(레테플라제)(thrombolytic product, reteplase)에 대한 FDA의 평가를 통해 설명할 수 있다.
NI(비열등성) 마진을 계산하기 위해 적합한 메타분석법을 활용하여 NI(비열등성) 연구에 대한 활성 비교자(대조)인 스트렙토키나제(streptokinase)에 대한 이용 가능한 모든 위약-대조 시험 결과를 모았다. 모아진 결과(pooled results)에서 생존에 대한 효과(effect on survival)의 점추정치(point estimate)인 사망률(mortality rates) 차이에 대한 절대값 2.6%에 95% 신뢰 하한은 2.1%(즉, M1)이었다.
새 혈전용해제는 수용 가능한 대안(an acceptable alternative)으로 간주되려면 스트렙토키나제의 이익 절반 이상의 손실을 배제해야 한다는 임상적 결론(clinical decision)이 내려졌다. 따라서 NI(비열등성) 연구에서 스트렙토키나제로 치료한 환자와 비교하여 레테플라제로 치료한 환자에서 사망률의 절대치의 1.05% 증가(즉, M2)를 배제해야 했다. 이 연구에 대한 NI 분석은 사망률 차이의 95% 신뢰구간(이 특정 경우 단측(one-sided))이 1.05% 증가를 배제했다는 것을 입증하기 위한 것이었다. INJECT 연구는 이를 달성했으며 이 제품은 시판 승인을 받았다.
고정 마진 접근법의 대안은 양 데이터원(both data sources)의 가변성(variability)을 반영하여 역사적 시험과 현재 NI(비열등성) 시험의 데이터를 조합하거나 합성(combines or synthesizes)하기 때문에 합성 접근법(synthesis approach)이라고 알려져 있다. 95%-95%법은 다른 식으로 개발되었을지라도 합성법과 수학적으로는 동등하다(mathematically equivalent)라고 볼 수 있지만 아래 식으로 추정되는 위약 대비 시험 약물 효과의 표준오차(standard error)를 지니며 SEH + SEN
여기서 SEH와 SEN은 역사적 연구와 NI(비열등성) 연구의 각 표준오차이며 합성법의 표준오차인 아래 식으로 추정하지 않는다.
첫 번째 공식은 항상 두 번째 공식보다 표준 오차가 더 크다. 따라서 합성법에 비해 95%-95%법은 보수적이다.
양 방법은 모두 역사적 연구와 NI(비열등성) 연구 간 (평균적으로) 대조 약물의 변함없는 효과(constant effect)에 대한 가정을 활용한다. 95%-95%법의 활용은 M1(대조의 전체 효과)의 손실이 배제되었는지를 평가하기 위해 바람직한 특징인 이러한 가정으로부터 가능한 이탈(deviation)에 대한 허용치라고 볼 수도 있다. 합성법의 활용은 일관성 가정의 세심한 정당화(careful justification) 및 (적합한 경우) 이로부터의 이탈에 대한 명시적 허용치와 함께 M2보다 더 큰 효과의 손실(loss of effect)이 배제되었는지를 판정하는 용도로 권장할 수 있다 (세부 사항은 IV.C 절과 예시 1(B)를 참조).
F. 규제적 결론 Regulatory Conclusions
성공적인 NI(비열등성) 연구는 잘 선정된 M1이 (위약 그룹이 있었더라면 위약 대비) 대조 그룹이 실제로 가졌던 효과를 반영하는 한, 시험 약물이 M1의 NI(비열등성) 마진을 배제한다면 0보다 더 큰 효과를 가진다는 것을 엄격하게 입증한다. 또한 NI(비열등성) 연구는 사용되는 M2에 따라 시험 약물이 대조 약물 효과의 어떤 비율(some fraction)보다 더 큰 효과를 가졌다는 것을 입증하는 용도로 활용할 수도 있다.
그러나 성공적인 NI(비열등성) 연구가 시험 약물의 유효성을 지지할지라도 약물이 활성 대조 약물과 “등등”하거나 “유사”하다(“equivalent” or “similar”)는 결론(이러한 경우에는 잘 규정되어 있지 않은 개념)을 지지하는 경우는 아주 드물다는 것을 유념하라.
유의성 검정(significance testing)을 기반으로 한 유효성의 엄격한 입증 외에도 시험은 약물의 유효성을 뒷받침하는 위약-대조 시험이 그러하듯이 추가 정보를 제공한다는 점을 유념해야 한다. 약물 효과의 점추정치와 그 신뢰구간은 시험 약물과 대조 약물 간 차이가 얼마나 클 수 있는지에 대한 정보를 제공해준다.
전술한 바와 같이 성공적인 NI(비열등성) 연구는 대개는 시험 약물이 활성 대조 약물과 동등하거나 유사하다는 결론을 뒷받침하기에 충분하지 않을 것이다.
이 문서에 논의되어 있는 방법은 (특히 마진 선정과 관련하여) 동등성이나 유사성(equivalence or similarity)을 입증하는 것이 아니라 시험 약물이 효과 있는지 만을 입증함을 목적으로 한다. 그러나 활성 대조 약물 대비 시험 약물의 효과에 대한 신뢰구간의 하한이 약간만 음(-)이었다면 유사성이 입증되었다는 판단을 할 수 있었을 것이다. 만약 연구가 동등성을 뒷받침함을 목적으로 하는 경우 신뢰 구간을 판단하는 비교 대상인 마진이 사전에 정당화되어야 하고 마진은 보통 M2보다 더 적을 것이다.
G. 대체 설계 Alternative Designs
ICH E10은 NI(비열등성) 마진 설정에 있어서 어려움이나 불확실성(uncertainty)이 있는 경우 또는 NI(비열등성) 마진이 너무 작아서 NI(비열등성) 연구 표본 크기가 불가능할 정도로 커져야 하는 경우 NI 설계보다 더 나을 수도 있는 광범위하게 다양한 연구 디자인을 제시하고 있다.
1. 추가(add-on) 연구 Add-on Study
대부분의 경우 약학적으로 새로운 치료에 관해 가장 흥미로운 질문은 이것이 단독으로 효과 있느냐 하는 것이 아니라 신약이 이미 이용 가능한 치료의 유효성을 더할 수 있느냐 하는 것이다. 따라서 가장 타당한 연구는 새로운 물질과 위약의 비교이다 (각각은 설정되어 있는 치료에 추가됨). 이에, 심부전(heart failure)에 대한 새로운 치료는 이뇨제(diuretics)와 디곡신(digoxin)에 새 물질(예: ACE 억제제, 베타 블로커 및 스피로노락톤(ACE inhibitors, beta blockers, and spironolactone))을 추가했다. 각각의 새 물질이 설정됨에 따라 이것은 새 물질과 위약이 추가된 배경 치료(background therapy)의 일부가 되었다. 또한 이러한 접근법은 종양학(oncology), 발작질환 치료(treatment of seizure disorders) 그리고 대부분의 경우 AIDS 치료에서 일반적이다.
2. 위약-대조 시험이 가능한, 가용 치료로부터 이익을 얻는 것으로 알려지지 않은 인구 파악 Identifying a Population Not Known to Benefit From Available Therapy in Which a Placebo-Controlled Trial Is Acceptable
수많은 결과 연구 환경(outcome study settings)에서 몇몇 임상적 환경(예: 중증 질환(severe disease))에 대해서만 유효성이 정립되었다.
따라서 위약-대조 시험에서 덜 위중한(less severely ill) 환자를 연구하는 것이 가능할 수 있다.
심바스타틴(simvastatin)이 고콜레스테롤성 경색 후(hypercholesterolemic post-infarction) 환자(4S)에게 효과 있었다는 입증은 (예를 들면) 고콜레스테롤성 비경색 환자(WOSCOPS) 또는 덜한 정도의 고콜레스테롤혈증 환자(TEXCAPS)를 대상으로 한 스타틴의 연구를 배제하지 않았다. 이러한 접근법은 새 연구 모집단(new study population)에서 치료가 가치 있는지에 관한 불확실성이 있는 한 적합하다.
또한 효과 있는 것으로 알려진 치료를 견딜 수 없는 환자를 연구하는 것이 가능할 수도 있다.
예를 들면 ACE 억제제 불내성(intolerant)인 심부전 환자를 대상으로 한 위약-대조 시험에서 안지오텐신 수용체 블로커(angiotensin receptor blockers)를 연구하는 것이 가능했지만 심부전 환자의 보다 보편적인 인구에게 ACE 억제제를 투여하지 않는(deny) 것은 가능하지 않았을 것이다. 왜냐하면 ACE 억제제가 일반적 심부전 인구에게 있어서 생존을 개선시킨다는 것은 이미 확립되었기 때문이다.
3. 조기 탈출, 구조 치료, 무작위 추출 철회 Early Escape, Rescue Treatment, Randomized Withdrawal
증상적 질환(symptomatic conditions)에서는 유효한 치료가 있는 경우 장기간 사람들을 위약 그룹에 남겨두기를 꺼려할 수도 있다.
특정 시간까지 반응을 보이지 않는 환자를 위해 조기 탈출/구조 수단(early escape/rescue)을 통합하거나 아니면 불안정한 협심증, 대발작 또는 발작성 상심실성 빈맥(unstable angina, grand mal seizure, or paroxysmal supra-ventricular tachycardia)과 같은 최초 증상 재발 시 환자를 시험에서 종료시키는 설계를 활용할 수 있다. 시간 경과에 따른 효과의 지속성(the persistence of effects)을 평가하기 위해, 장기적 위약-대조 시험을 진행하는 것이 어려운 경우 무작위 추출 철회 연구(randomized withdrawal study)를 활용할 수 있다.
이러한 연구의 경우 성공적으로 약물 치료를 받은 환자를 위약에 무작위 배정하거나 약물 치료를 지속한다. 증상이 되돌아오는 즉시 그 환자가 평가변수(endpoint)를 지닌 것으로 간주한다.
H. 필요한 연구 수 Numbers of Studies Needed
보통 1997 FDA 현대화법(현대화법)에서 허용되는 예외를 두고서, FDA는 유효성을 지원하는 하나 이상의 대조가 잘 이루어진 적합한 연구가 있을 것으로 예상한다. 현대화법은 몇몇 경우 하나의 연구 + 확정적 증거가 실질적 증거로서 역할을 하도록 허용하며, FDA는 언제 단일 연구가 충분할 수 있는지를 논의하는 지침을 발행했다.
단일의 역사적 연구에 대한 의존성이나 가변성 때문에 역사적 치료 효과 (그로 인한 M1)의 규모에 대한 불확실성이 있는 경우 보통 유효성을 지원하기 위해서는 하나 이상의 NI(비열등성) 연구가 필요하다.
연구가 비교적 중간 정도 규모인 경우 보통 필요하다고 보이는 경우 하나 이상의 NI(비열등성) 시험을 진행하는데 있어서 장애물은 없다. 그러나 (적합한 통계력을 가지기에) 너무 큰 2개 시험을 진행하는 것은 타당하지 않으며 단일 시험을 설득력 있게 만드는 것을 고려해볼 필요가 있다. 일반적으로 2가지 고려가 그렇게 할 수 있다.
즉, (1) 다른 관련 정보의 가용성 및 (2) 통계적으로 설득력 있는 결과.
1. 그 외 관련 정보 Other Relevant Information
NI(비열등성) 시험에서는 일반적으로 시험 약물이 약학적으로 활성 대조 약물과 유사하다 (즉, 이것이 약학적으로 유사하지 않았다면 추가 연구는 보통 보다 설득적이고 실용적이었을 것이다).
이 경우 유사한 성능의 기대(하지만 여전히 시험을 통한 확인이 필요함)는 단일 시험을 수용할 수 있게 하며, 또한 아마도 NI(비열등성) 마진을 선정하는데 있어서 덜 보수적인 선택을 할 수 있게 한다.
다른 유형의 데이터를 구할 수 있는 경우 유사한 결론에 도달할 수 있다. 예를 들면:
- 시험 약물과 활성 대조 약물의 유사한 작용을 확인하면서 매우 설득력 있는 생체지표가 있는 경우 (예: 종양 반응, ACE 억제 또는 베타 차단의 범위)
- 약물이 밀접하게 관련된 임상 환경에서 효과 있는 것으로 입증된 경우 (예: 단일요법의 NI(비열등성) 연구를 가지고 부수 치료로서 효과 있음)
- 약물이 고유하지만 관련 있는 인구에서 효과 있는 것으로 입증된 경우 (예: 성인 대 소아)
2. 통계적으로 설득력 있는 결과 Statistically Persuasive Result
NI(비열등성) 시험을 통계적으로 설득력 있는 것으로 간주할 수 있다는 결론은 양측 95% 신뢰구간을 가지고 배제된 마진 또는 NI(비열등성) 연구결과의 내적 일관성을 기반으로 할 수 있다. 2개의 관심 마진(M1과 M2)이 있다는 것을 인정해야 한다.
NI(비열등성) 연구에서, 임상적으로 정해진 마진 M2는 M1보다 더 적으며(종종 상당히 더 적음), 이러한 것은 시험 약물이 효과가 있는지를 정하는 용도로 활용할 수 있다.
예를 들면 M2는 M1의 40%가 되도록 선정할 수 있다.
이러한 M2 기준을 충족함으로써 대조 효과의 40% 손실을 배제하면서 단일 NI(비열등성) 연구는 시험 약물이 대조 치료 효과의 임상적으로 충분한 분수(60% 이상)를 보존한다는 합리적인 보증을 제공한다. 동시에 이것은 시험 약물이 0보다 더 큰 효과를 지닌다는 강력한 보증도 제공한다. 그러한 경우 단일 시험은 보통 승인을 위한 충분한 근거가 된다. 효과의 보존이 특히 중요한 경우 물론, 하나 이상 연구에서 M2 손실이 배제되었다는 것을 입증하는 것이 필요하다고 볼 수도 있다.
몇몇 경우 NI(비열등성) 연구로 기획된 연구는 활성 대조 약물보다 우월함을 보여줄 수 있다. ICH E9: ‘임상 시험에 관한 통계 원칙’(ICH E9)에서의 권고와 FDA 정책은 다양성에 대한 조정 없이도 NI(비열등성) 연구에서 발생하는 이러한 우월성 연구결과를 해석할 수 있게 해주었다. 활성 약물 대비 우월함을 입증하는 것은 위약 대비 우월함을 입증하는 것보다 훨씬 더 어렵기 때문에 활성 대조 약물 대비 우월함을 입증하는 것이 시험 약물의 유효성에 대한 매우 설득력 있는 입증이다. 이와 같이 M2보다 훨씬 더 적은 C-T에 대한 95% 신뢰구간 상한이 있지만 우월함보다 더 적은 연구결과도 유효성을 입증하는데 있어서 통계적으로 설득력 있다.
I. 활성 대조 약물 선정 Choice of Active Control
활성 대조 약물은 잘 규정된 효과를 지닌 약물이어야 한다.
가장 명확한 선정은 NI(비열등성) 시험에 대해 추정되는 활성 대조 약물 효과를 규정하기 위해 역사적 위약-대조 시험을 구할 수 있는 단일 약물이다. 몇몇 약학적으로 유사한 약품이 있는 경우 조합된 분석을 활용하여 NI(비열등성) 마진을 선정할 수도 있으며, 그러한 경우 관련 약물의 어떠한 것을 NI(비열등성) 시험에서 활성 대조 약물로 볼 수 있다 (IV.B.2.b 절 참조).
IV. 비열등성 마진 선정 및 비열등성 가설 검정 Choosing the Non-Inferiority Margin and Testing the Non-Inferiority Hypothesis
A. 서론 Introduction
이 절에서는 마진 선정에 영향 미치는 것에 대해 특별히 강조하면서 NI(비열등성) 시험에서 작용하는 다양한 불확실성 원인을 논의한다.
또한 NI 가설에 대한 통계적 검정 선정도 자세히 논의한다. III 절에서 간략히 설명했듯이 NI(비열등성) 연구의 분석을 위한 2가지 상이한 접근법이 있다. 하나는 고정 마진법이라고 불리는 것이며, 다른 하나는 합성법이라고 불린다. 둘 모두는 역사적 연구와 NI(비열등성) 연구의 동일한 데이터를 사용하지만 그 데이터를 다른 식으로 활용한다.
- 고정 마진법의 경우 마진 M1은 이전에 실시한 연구에서 활성 비교자의 효과 추정을 기반으로 한다. 이후 NI(비열등성) 연구에서 배제시킬 NI(비열등성) 마진은 미리 지정되며, 이것은 보통 대조 효과의 합리적인 분율이 보전될 수 있도록 M1보다 더 작은 수량(즉, M2)로서 선정된다. NI(비열등성) 연구는 NI(비열등성) 마진과 동등하거나 그 이상인 양만큼 대조 대비 시험 약물의 충분한 수준의 신뢰(예: 97.5%) 열등성을 가지고 결과가 배제되는 경우 성공적이다. 위약과 대조 약물을 비교한 과거 연구는 M1에 대한 단일의 고정값을 도출하는 용도로 활용할 수 있기 때문에 이것을 고정 마진법이라고 부른다. 일반적으로 선정되는 값은 시험의 메타분석 또는 단일 위약-대조 시험의 치료 효과에 대한 95% 신뢰구간의 하한으로서 활성 대조 약물이 NI(비열등성) 연구에서 가질 것으로 예상되는 효과의 보수적 추정을 의미한다. M1이 C-T에 대한 95% 신뢰구간 상한에 의해 배제되는 경우 시험 약물이 효과 있다는 결론이 내려진다. M2가 배제되는 경우에는 시험 약물의 효과가 대조 약물 효과의 임상적으로 중요한 분수를 보존한다는 것으로 입증되었다는 것이다.
- 동일한 데이터로부터 도출된 합성법은 역사적 시험의 메타분석을 통한 대조 효과 추정과 NI(비열등성) 시험을 통한 대조 대비 치료 효과 추정을 조합 (또는 합성)한다. 이 방법은 NI(비열등성) 시험에서 위약이 있었다면 위약의 효과가 어떠했을지를 예측하기 위해 동일한 무작위 추출 시험을 통해 얻은 것처럼 양 데이터원을 취급한다. 프로세스는 NI(비열등성) 시험과 역사적 시험의 가변성을 활용하며, 또한 대조 효과를 기반으로 한 특정한 고정 NI(비열등성) 마진 또는 해당 대조 효과를 사실상 지정하지 않고 치료가 대조 효과의 사전 지정된 고정 분수의 손실을 배제한다는 NI 가설을 검정하기 위해 하나의 신뢰구간을 산출한다. 달리 얘기하자면 NI를 평가할 때 보존되어야 하는 대조 효과의 분수 M2/M1은 미리 지정되지만 수량(M1 또는 M2)은 지정되지 않는다.
고정 마진 또는 합성 접근법을 이용하여 NI 가설을 평가할 때 만들어지는 가정과 관련된 다수의 단계는 모두 NI(비열등성) 연구의 결과와 결론에 도입될 수 있는 잠재적 불확실성 원인이다. IV.B 절에서, 우리는 이러한 원인을 식별하고 NI(비열등성) 연구를 통해 거짓 결론을 도출할 수 있는 확률을 줄이고자 불확실성을 감안하는 접근법을 제시하려고 한다. IV.C 절은 비열등성을 평가하기 위한 통계적 분석법에 대한 추가 논의를 명시한다.
B. 활성 대조 약물 효과(M1)의 통계적 불확실성과 정량화 Statistical Uncertainties and Quantification of the Active Control Effect (M1)
1. NI(비열등성) 연구에서 불확실성의 원인은 무엇인가? What are the Sources of Uncertainty in an NI Study?
NI(비열등성) 연구의 해석은 3개의 연결된 중요 결론에 달려 있다. 즉,
- 활성 대조 약물이 과거 연구에서 가졌던 효과에 관한 신뢰할 수 있는 정보가 있다.
- 활성 대조 약물이 현재 NI(비열등성) 연구에서 가지는 효과가 과거 연구에서 관찰된 효과와 유사하다고 믿을 만한 이유가 있다.
- NI(비열등성) 연구는 비교자와 비교하여 시험 약물의 효과에 관해 신뢰할 수 있는 정보를 제공한다.
3가지 정보원 모두는 불확실성을 갖고 있다. 첫 번째와 세 번째의 경우 불확실성은 주로 표준오차(합성법의 경우)와 신뢰구간(고정 마진법의 경우)으로 측정되는 통계적 성격을 가진다. 두 번째 결론은 주로 정량화할 수 없는 과학적 불확실성을 갖는다.
첫 번째 불확실성 원인은 과거 연구에서 활성 대조 약물의 효과에 대한 추정이다. 연구 대 연구 가변성에 관한 정보가 없기 때문에 위약 대비 활성 대조 약물의 단일 역사적 연구만이 있을 때; 다수 연구가 있지만 이것들 간 효과 규모 추정에 있어서 상당한 불일치가 있을 때;
그리고 몇몇 약학적으로 관련된 약물을 통해 얻은 데이터가 활성 대조 약물 효과에 대한 추정을 개발하기 위해 활용될 때 특정 문제가 발생한다. 이러한 3가지 잠재적 문제 모두는 M1을 선정할 때 고려할 필요가 있다.
두 번째 불확실성 원인은 통계에 기반한 것이 아니라 과거 연구를 통해 추정한 효과 규모가 현재 NI(비열등성) 연구에서의 활성 대조 약물 효과보다 더 클 수 있다는 우려로부터 나온다. 효과가 불변일 것이라고 가정하는 것은 종종 “일관성 가정”이라고 불린다.
가정이 부정확하고 현재 NI(비열등성) 연구에서의 효과 규모가 역사적 연구를 통해 추정한 효과보다 더 작은 경우 M1은 부정확하게(너무 크게) 선정되었을 것이고 NI를 입증하는 성공한 것처럼 보이는 연구는 잘못된 결과를 얻었을 수 있다.
일관성 부족은 부수적 의료 치료의 진전, 환자 인구에서의 차이 또는 연구 대상 평가변수에 대한 평가 변동을 비롯한 수많은 이유로 발생할 수 있다. IV.B.2.c 절에서 논의했듯이, 심혈관 결과 연구에서 치료 효과의 절대 차이는 위험 감소의 경우보다 대조 그룹에서 배경율에 더 민감하고 가변적일 확률이 높다는 견해를 지지하는 일부 경험이 있다. 따라서 위험 감소는 절대 효과보다 대조 약물 효과의 보다 일관성 있는 측정일 수 있다. 일관성에 대한 우려에 관해 NI(비열등성) 마진을 조절할 수 있는 방법은 불가피하게 판단의 영역이다.
세 번째 불확실성 원인은 NI(비열등성) 연구에서 NI 가설 시험 결과를 기반으로 한 거짓 결론을 내릴 수 있는 위험과 관련 있다
(즉, 실제론 그렇지 않음에도 C-T < M1이라는 결론). I형 오류 또는 위양성 (false positive) 결론 위험이라고 불리는 이 불확실성은 약물이 위약보다 더 효과적이라고 잘못 결론 내릴 수 있는 위약-대조 우월성 시험에서의 우려와 유사하다. 달리 얘기하자면 이것은 어떠한 가설 검정 상황에서도 존재한다.
NI 케이스의 경우 통계 검정은 대조와 시험 약물간 차이(C-T, 시험 약물 대비 대조의 우월함 정도)가 NI(비열등성) 마진보다 더 적다는 것을 확인하기 위함이다 (이러한 것이 의미하는 바는 대조 효과 일부가 보존되거나 (C-T < M1의 경우) 또는 충분한 양이 보존된다는 것(C-T < M2)이다).
일반적으로 제I형 오류는 C-T에 대한 95% 신뢰구간의 상한이 NI(비열등성) 마진보다 더 적도록 규정함으로써 0.025로 설정된다.
이러한 것은 위약-대조 시험에서 우월성의 일반적인 통계 검정과 거의 유사하다. 한 개의 NI(비열등성) 연구만을 실시할 예정인 경우 95% 이상(예: 99%)의 신뢰구간 상한을 계산하여 그 상한이 마진보다 더 적도록 요구함으로써 I형 오류의 확률을 더 적게 만들 수 있다. 이 접근법은 단일 위약-대조 시험(0.05 대신 0.01 – 0.001의 alpha에서 시험)의 경우 일반적으로 실시되는 것과 유사하다. 그러나 전술한 바와 같이 이러한 우려를 완화시켜주는 사전 정보가 있을 수 있으며, 예를 들면 약물과 활성 대조 약물이 약학적으로 유사한 경우 일반적인 제I형 오류 경계(0.025)에서의 단일 시험만으로도 충분하다고 볼 수 있다.
다음 하위절에서 우리는 처음 2개 불확실성 원인의 영향뿐만 아니라 가설 검정에 사용할 마진 선택에 대해 자세히 설명한다.
2. 활성 대조 약물 효과의 정량화 Quantification of the Active Control Effect
과거 대조식 연구는 활성 대조 약물의 치료 효과를 추정할 수 있는 실증적 데이터를 제공해준다. NI(비열등성) 연구에서 존재할 것으로 추정할 수 있는 대조 약물 효과를 측정하기 위한 근거가 될 그러한 치료 효과의 규모는 NI(비열등성) 연구를 실행하는 것이 타당한지 여부를 정하는데 있어서 매우 중요하다. 활성 대조 약물이 작은 치료 효과, 위약과 미미하게만 구분할 수 있는 효과 또는 일정하지 않은 효과를 가지는 경우 비열등성을 연구하도록 설계된 활성 대조 약물 연구는 매우 큰 표본 규모를 요구할 가능성이 높거나 아니면 전혀 실용적이 못할 수도 있다.
활성 대조 약물의 치료 효과 규모는 측정을 지원하기 위해 활용할 수 있는 설계가 유사한 별도 연구의 수와 데이터 양에 따라 몇 가지 방법으로 측정할 수 있다. 수많은 독립적인 역사적 연구를 확보하는 것은 일반적으로 1-2개만을 확보하는 것보다 더 유익하다. 왜냐하면 활성 대조 약물 효과의 추정이 더 정밀하고 불확실성에 덜 영향 받을 수 있으며, 또한 연구가 이루어지는 기간 이상 동안 효과의 일관성을 판단하는 것이 가능해지기 때문이다.
a. 단일 연구를 통해 HESDE 측정하기 Determining HESDE from a single study
유효성을 입증하는 용도로 NI 설계를 활용하는 가장 보편적인 경우는 활성 대조 약물이 주요 사건(예: 사망, 뇌졸중, 심장마비, 지속적인 감염 또는 종양 진전)의 위험을 줄이는 용도로 승인된 결과 연구와 관련 있다.
관련 조건이나 다양한 인구에서 또는 약학적으로 유사한 약물에 대해 관련한 그 외 데이터가 있을지라도 그러한 승인이 특정 환경에서의 단일 연구를 기반으로 이루어진다는 것은 흔한 일이다. 일반적으로 NI(비열등성) 마진을 단일의 무작위 추출식 위약-대조 우월성 연구에 기반을 두는 것은 해당 연구에서의 데이터 가변성을 고려해봐야 한다. 치료 효과 추정은 일반적으로 발생율이나 위험율에서 차이가 있을 수 있는 활성 치료 그룹과 위약 대조 그룹에서의 발생율 간 차이와 같은 어떤 계측법으로 나타난다.
치료 효과는 보통 신뢰구간으로 나타나는 불확실성을 가지고 있다.
95% 신뢰구간의 하한은 역사적 연구에서 활성 대조 약물이 가졌던 효과의 보수적 추정을 제공하며, 또한 시행 변동이 역사적 효과를 다소 줄일 수 있다는 가능성을 인정하면서 미래 NI(비열등성) 연구에서 나타날 것으로 추정할 수 있다. NI(비열등성) 연구의 논리는 활성 대조 약물이 최소한 NI(비열등성) 연구에서 M1과 동일한 효과를 가진다는 가정에 달려 있기 때문에 활성 대조 약물 효과의 보수적 추정을 NI(비열등성) 마진의 근거로 활용하는 것은 매우 중요하다.
추정 치료 효과의 p값이 0.05보다 훨씬 더 적다면, (0.01 또는 0.001 혹은 그보다 훨씬 더 적은 범위에 있는 경우) 95% 신뢰구간의 하한은 일반적으로 0보다 훨씬 위(절대 값에서) 또는 1.0보다 훨씬 아래(위험율과 기타 위험 추정의 경우)에 있을 것이다. 이 경우 우리는 치료 효과가 실질적이며 NI(비열등성) 연구에서 대조 효과가 합당한 규모일 것이라고 더욱 확신할 수 있다.
활성 대조 약물의 단일 위약-대조 시험만이 있는 경우 치료 효과의 연구 대 연구 가변성에 대한 객관적인 평가가 없으며, 필연적으로 대조군이 NI(비열등성) 연구에서 특정 규모의 효과를 가질 것이라는 보증 수준에 대한 우려가 발생한다.
이러한 상황을 감안하는 세심한 잠재적 접근법은 99% 신뢰구간과 같이 더 넓은 신뢰구간의 하한을 사용하는 것이다. 이 접근법은 효과가 매우 큰 경우에 가능하지만 종종 매우 큰 NI(비열등성) 시험을 요구되는 M1을 도출될 것이다. 이것은 밀접하게 관련된 약물 또는 밀접하게 관련된 질병에서의 대조 약물이 유사한 효과를 가지는 경우에 안심하고 사용할 수 있다. 또한 (대조 약물의 효과가 성이나 연령을 기반으로 한 하위그룹에서 유사한 경우와 같이) 부분모집단에서 높은 수준의 내적 일관성을 지니는 것도 결과의 재현성에 대해 어느 정도의 안심을 줄 수 있다. 이러한 연구결과는 NI(비열등성) 시험을 위해 모집단에서의 활성 대조 약물에 대한 단일 연구만을 사용할 수 있는 경우에도 95% 신뢰구간 하한의 활용을 지지할 수 있다.
b. 다수 시험을 통해 HESDE 측정 Determining HESDE from multiple Trials
동일한 모집단에서 동일한 임상 시험은 확률적으로만 상이한 치료 효과 추정을 도출할 수 있다. 2개 이상의 연구가 밀접한 치료 효과 추정을 도출하는 범위는 각 연구의 표본 크기, 연구 모집단의 유사성, 연구 진행(예: 탈락율) 그리고 아마도 측정할 수 없는 기타 요소의 함수이다. 따라서 현재 NI(비열등성) 연구를 위해 마진을 선정할 때 고려해야 하는 또 다른 불확실성 원인은 활성 대조 약물 치료 효과의 추정에서 연구 대 연구 가변성(study-to-study variability)이다.
위약, 효과 없는 치료 또는 치료 없음과 비교한 활성 대조 약물에 대한 다수 연구는 활성 대조 약물의 평균 효과 추정과 그 불확실성뿐만 아니라 효과의 연구 대 연구 가변성 측정치를 확보할 수 있는 기회를 준다. 활성 대조 약물 효과에서 연구 대 연구 가변성은 NI(비열등성) 연구에서 기본 가정 중 하나가 역사적 연구와 현재 NI(비열등성) 연구 간 효과의 일관성이기 때문에 매우 중요한 고려사항이다.
몇몇 케이스는 발생할 수 있는 문제와 활성 대조 약물 효과를 추정할 수 있는 다수 연구의 활용을 설명해준다.
- (1) 활성 대조 약물의 효과를 입증하기에 충분한 규모의 수많은 연구가 있고 (2) 이러한 연구를 통해 도출한 효과가 합리적인 수준으로 일관성을 지녀서 메타분석을 통해 도출한 평균 효과가 대조 효과의 합리적 추정치를 제공하고 신뢰할 수 있는 M1 선정을 뒷받침하는 경우가 이상적인 케이스이다.
- 수많은 소규모 연구가 있는데 그 일부가 활성 대조 약물 효과를 입증하지 못한 경우에도 적합한 메타분석법을 이용하여 연구를 조합하면서 활성 대조 약물 효과를 추정할 수 있지만 치료 효과에서 연구 대 연구 이질성에 대한 충분한 증거가 있다면 사용에 주의를 기울여야 한다.
- 다수의 대규모 연구가 있는 경우 하나 이상의 연구가 효과를 거의 입증하지 못하거나 전혀 입증하지 못한다면 문제될 수 있다. 연구들 중 하나가 효과를 입증하지 못한 이유에 관해 납득할만한 설명이 있는 경우를 제외하고 실패한 연구가 있으면 NI 설계 활용에 부정적일 수 있다.
- 때때로 동일한 약학적 등급 내 상이한 약물에 대한 몇 가지 시험이 있다. 적합한 메타분석법을 이용하여 이것들을 모으면 단일 연구를 통해서 얻는 것보다 더 협소한 95% 신뢰구간 계산을 할 수 있다. 약리학적으로 유사한 약물은 유사한 효과를 가질 것이라는 추정은 합당할 수 있지만 이러한 가정을 너무 확장하는 경우에는 주의를 기울여야 한다. 이러한 상이한 약물의 효과가 시험에서 크게 달라지는 경우 조합된 데이터를 활용하여 메타분석으로 평균 효과를 추정한 후 NI(비열등성) 연구에서 활성 대조 약물로서 가장 큰 효과(점추정치)를 지닌 약물을 선정하는 것이 합당할 수 있다.
활성 대조 약물에 대한 여러 연구를 구할 수 있는 경우, 평균 효과를 추정할 때 모든 연구와 모든 환자를 고려해야 한다. 효과를 입증하지 못하는 연구를 제외시키는 것은 (매우 타당한 이유가 있는 경우를 제외하고) 대조 약물 효과를 과다하게 추정하여 거짓되게 높은 M1이 도출될 수 있다. 전술한 바와 같이 활성 대조 약물의 치료 효과 없음을 입증하는 적절한 설계와 규모의 연구가 있다는 것은 이질적인 결과를 설명하는 유효한 이유가 있는 경우를 제외하고 그 대조에 대한 NI(비열등성) 연구 진행을 막을 수 있다.
다수 연구로부터 얻은 데이터를 조합하여 활성 대조 약물 효과를 추정하는 경우 효과의 몇몇 변동을 예상할 수 있다.
연구 간 그리고 연구 내 이질성을 모두 감안하는 무작위-효과 메타분석을 활용할 수 있다. 무작위 효과의 분포에 관해 작성된 가정에서 차이가 나는 Frequentist 및 Bayesian 방법을 모두 활용할 수 있다. 연구들 간 변동이 확률적으로 예상했던 것보다 더 높은지를 탐색하기 위해 이러한 방법을 활용할 수 있다. 그러한 경우 연구 간 변동을 감안해야 하며, 그러한 변동으로 인해 NI(비열등성) 연구를 위해 보다 보수적인 마진이 도출될 것이다.
별첨의 예시 1과 2는 NI(비열등성) 시험을 설계할 때 활성 대조 약물의 여러 역사적 위약-대조 시험을 어떻게 평가하는지에 대해 상세히 설명해준다.
앞서 논의한 바와 같이 역사적 연구와 NI(비열등성) 연구 간 활성 비교자 효과의 일관성 가정은 비열등성을 기반으로 한 효능 결론을 내리는 데 있어 매우 중요하다. 그러나 상이한 시점에 상이한 모집단에서 연구 간 일정한 효과가 무엇을 의미하는지 규정하는 데에 기술적인 어려움이 있다. 치료 효과를 공식화하는 수학적 방법은 일관성 가정의 의미와 개연성에 영향 미칠 것이다.
예를 들면 NI(비열등성) 시험을 성공적으로 활용했던 상황인 대부분 심혈관 연구에 보편적인 매우 드문 이진 결과(binary result)에 대한 연구를 생각해보자. 역사적 연구의 위약 그룹에서 발생 확률이 p1이고 활성 치료 그룹에서는 p2라고 가정한다. 이후 역사적 연구에서 치료 효과를 몇 가지 방법으로 식으로 나타낼 수 있다.
- 상대 위험 또는 위험율(the relative risk or risk ratio)이라고 불리는 p2/p1
- 상대 위험 감소(the relative risk reduction) 1 – p2/p1
- 오즈비(the odds ratio) [p2/(1–p2)] / [p1/(1-p1)]
- 위험 차이(the risk difference) p1 – p2
- 치료가 필요한 환자 수(NNT, the number needed to treat), 1/(p1-p2)
p1과 p2는 연구간 다른 경우 p2/p1이 상수가 되도록 다를 수 있다. 예를 들면 한 연구에서 p1과 p2가 0.10과 0.05이고 또 다른 연구에서는 0.06과 0.03인 경우 양 연구에서 모두 p2/p1 비율은 0.5이다. 이후 상대 위험 감소는 양 연구에서 동일하며 오즈비는 대략적으로 동일할 것이다. 그러나 위험 차이는 한 연구에서 0.05이고 다른 연구에서는 0.03이다. 그리고 치료가 필요한 환자수는 20명과 33명이다.
반면 2개 연구가 상이한 p1과 p2를 가지지만 위험 차이가 동일한 경우 양 연구는 동일한 NNT를 가지지만 동일한 상대 위험, 상대 위험 감소 또는 오즈비를 가질 수는 없다. 따라서 일관성에 대한 정의는 효과가 수학적으로 어떻게 공식화되느냐에 달려 있다.
NI(비열등성) 연구의 해석은 일관성 가정에 달려 있기 때문에 (어떠한 것이 있다면) 역사적 연구들 간 그리고 역사적 연구와 NI(비열등성) 연구 간 무엇이 일관성을 가질 것인지에 대한 질문을 특별히 고려해야 한다. 전술한 바와 같이 경험과 기대를 바탕으로 한 결과 연구에 대한 일관성 가정은 보통 절대적이 아니라 상대적 효과의 예상되는 일관성을 기반으로 했다.
치료 그룹에서 성공율 간 절대 차이로서 그리고 활성 비교자 대비 시험 치료에 대한 성공의 상대 위험이나 위험율로서 치료 효과를 표시하는 것 간 차이는 다음 2개 예시에 설명되어 있다.
첫 번째 예시에 관해, 치료율이 선정된 활성 대조 약물을 받는 환자의 경우 40%이상이고 위약 환자의 경우 30%이며 그리고 치료율 차이가 10%인 질병을 생각해보자. NI(비열등성) 연구의 목적은 시험 제품이 효과 있다는 것(즉 위약보다 우월하다는 것)을 입증하는 것인 경우 NI(비열등성) 연구에서 시험 제품과 활성 대조 약물 간 차이는 10% 이하여야 한다.
이후 마진 M1은 10%이다. 추가 임상 목적은 시험 제품이 활성 대조 약물 효과의 절반 이상을 보존한다는 것을 설정하는 것인 경우 시험 제품의 치료율은 대조(M2 마진)보다 더 낮은 5% 이하로 입증되어야 한다.
이러한 접근법은 대조 약물이 NI(비열등성) 연구에서 (만약 있다면) 위약 대비 10% 이상의 효과를 가질 것을 요구한다.
NI(비열등성) 연구에서 모집단이 그러한 이익을 갖지 않은 경우(예: 모든 환자가 이익이 10% 이하로 되도록 시험 약물에 민감하지 않은 질병을 지녔다면), 5% 차이를 배제했을지라도 그러한 것은 원하는 유효성을 입증하지 못한다 (하지만 입증하는 것처럼 보일 수 있다).
이 경우 연구에서 대조의 진짜 효과가 8%였다면 5% 차이를 배제하는 것은 사실상 대조 효과의 원하는 50%뿐만 아니라 시험 약물의 어느 정도 효과를 입증했을 것이라는 점에 유념한다.
두 번째 예시는 위험율(시험/대조) 계측용으로 선정한 NI(비열등성) 마진을 설명한다.
C와 P가 각각 대조와 위약에 대한 원하지 않는 결과의 진짜 비율을 나타낸다고 하자. 위약과 비교하여 대조 효과는 위험율(C/P)로 표시할 수 있다. 위험율 1은 효과 없음을 의미하고 1 이하의 비율은 효과 즉, 원하지 않는 결과의 비율 감소를 입증한다.
위험율과 같은 계측법은 미래 연구에서 발생하는 위약 그룹에서의 발생율에서 가변성에 의한 영향을 덜 받을 수 있다.
예를 들면 3/4 = 0.75의 관심 사건에 대한 위험율은 하기 표에 나와 있는 것과 같이 상이한 연구에 있는 매우 상이한 절대 실패율을 통해 도출할 수 있다. 위험율은 4개 가설 연구 모두에서 유사하지만 실패율에서 절대 차이의 범위는 5% ~ 20%이다.
NI(비열등성) 마진이 4번째 연구에 있는 것과 같이 대조 약물 효과를 입증하는 역사적 연구를 기반으로 했다고 가정하자. 이후 NI(비열등성) 마진(M1)은 20%로 선정된다. 이제, 보다 현대적인 상황 하에서 NI(비열등성) 연구가 연구 1과 같이 더 많은 대조율을 가졌으며 위약과 비교하여 치료 효과 규모가 20%에 훨씬 못 미친다고 가정하자. 이후 20%의 NI(비열등성) 마진(M1)은 NI(비열등성) 연구에서 약물 효과보다 훨씬 더 크며, 20%의 차이를 배제하는 것은 유효성을 전혀 입증하지 못한다. 따라서 33%의 열등성 (또는 1.33의 상대 위험; 즉, 1 ÷ 0.75)을 배제하는 것으로서 NI(비열등성) 마진을 선정했고 대조율이 15%였다면 시험과 대조 간 차이(M1)는 5% 이하여야 한다 (15% x 1.33 = 20% 또는 5% > 활성 대조 약물 그룹에서 15% 비율).
이 경우 절대 효과 규모가 다르지만 위험 감소가 합리적으로 일정하다면 위험율 계측은 NI(비열등성) 연구에서 보다 낮은 발생율로 더 나은 조정을 준다.
III.E 절의 예시를 다시 살펴보면, 스트렙토키나제에 대한 위약-대조 시험에서는 분명히 위약 그룹의 사망률이 감소하고 있었다.
따라서 사망률 감소가 상대적 감소로서 일정했을지라도 절대 감소가 감소하며 치료 효과(M1)의 예상 규모가 더 이상 절대 2.1% 감소이지 않았다. 이에, 사망률의 상대 위험(사망률의 비율)은 이후 혈전용해 제품 개발 프로그램에 활용할 수 있었다. 왜냐하면 상대 사망률로 표시되는 혈전용해 효능이 연구 내 모든 환자에게 개선된 치료 표준이 제공됨에 따라 시간이 경과하면서 더욱 안정적으로 보였기 때문이다.
AMI 치료에서 테넥테플라제 개발에 관해, 관련 역사적 연구에 대한 평가는 비교자(알테플라제 90분 주입)가 0.22 이상(약 0.78까지, 상대 위험 신뢰구간의 상한) 위약과 비교하여 사망률의 상대 위험을 줄였다는 결론을 이끌어냈다.
새 약물이 비교자(M1 = 0.22) 효능의 절반 이상 즉, 0.11(M2) 이상으로 유지될 수 있도록 임상적 판단으로 NI(비열등성) 마진을 선정했다. 위약 대비 테넥테플라제의 상대적 사망률 위험은 0.89 이하이다. 이러한 것은 1.14([테넥테플라제/위약]/[알테플라제/위약] = 0.89/0.78)의 테넥테플라제 대 알테플라제의 상대 위험 비교 제한에 대한 값을 주었으며, 이것은 NI(비열등성) 연구에서 사망률 비율의 95% 신뢰구간(이 경우 일방)에 의해 배제되어야 했다. ASSENT II 연구 결과는 1.104의 상대 위험의 95% 일방 상한을 주었으며, 이로 인해 테넥테플라제가 시판 승인을 얻었다.
이러한 사례는 특정 계측법이 어떻게 작용할 것인지에 대한 이해의 중요성을 설명해준다. 치료 효과를 특징화하는데 있어서 상대 계측(예: 위험율)과 절대 계측(예: 비율 차이) 간 선정은 임상적 해석, 의료적 맥락 그리고 결과율 거동에 관한 과거 경험을 기반으로 할 수도 있다.
d. 할인 Discounting
NI(비열등성) 연구 디자인을 위해 마진 M1을 선정할 때 활용할 수 있는 한 전략은 “할인하거나” 또는 HESDE 분석을 통해 추정할 수 있는 활성 대조 약물 효과의 규모를 축소하는 것이다.
그러한 할인은 과거 성과를 기반으로 하여 NI(비열등성) 연구에서 활성 대조 약물의 효과를 추정할 때 만들어져야 하는 가정에서의 불확실성을 감안하여 이루어진다. 할인에 대한 이러한 개념은 M1 측정에 초점을 맞추며, 임상적 근거에서 잃어버릴 수 있는 효과가 M1의 어떤 분수(즉, M2)라는 임상적 판단과 별개이다.
앞에서 논의한 바와 같이 활성 대조 약물의 역사적 효과(HESDE)를 활성 대조 약물 NI(비열등성) 시험의 새로운 상황으로 변환하는 것과 연관된 불확실성이 있으며, 효과를 할인함으로써(예: “절반을 취함”) 일관성 가정에서 그러한 불확실성을 다루려고 한다. M1을 선정할 때 “자동” 할인을 적용하는 것이 아니라 활성 대조 약물 효과에 관한 우려는 최대한 다음과 같아야 한다.
- 구체적이어야 한다.
- 가용 데이터(예: 상이한 환자 모집단에서 가능한 효과 차이의 규모, 과거 연구의 일관성 그리고 모집단 하위세트 간 연구 내 일관성)를 활용해야 한다.
- 시험 및 대조 약물의 약학적 유사성뿐만 아니라 신약의 약력학적 효과와 같은 보수적 추정의 필요성을 줄여주는 요소를 감안해야 한다.
밀접하게 관련된 문제는 NI(비열등성) 연구와 역사적 연구에서의 모집단 간 관찰되는 차이를 반영해야 할 수 있는 M1 조정의 필요성이다. 예를 들면 역사적 연구에서 남성보다 여성에게서 효과가 더 적다는 연구결과는 NI(비열등성) 연구가 역사적 연구보다 상당히 더 높은 비중의 여성을 포함한 경우 M1의 타당성을 평가할 때 고려되어야 한다.
일반적으로 역사적 데이터에 대한 평가는 NI(비열등성) 연구에 대한 통계적 분석 플랜이 (예를 들면 공변량 조정을 통해) 이러한 요소를 감안하도록 전향적으로 설계될 수 있도록 하기 위해 또는 M1의 값이 NI(비열등성) 연구에 등록된 연구 모집단의 기저선 특성 측면에서 다시 확인될 수 있도록 하기 위해 중요한 하위그룹에 대한 결과에서 차이를 식별해야 한다.
C. 고정 마진 및 합성 방법 Fixed Margin and Synthesis Methods
개념적으로, 비열등성의 결론은 NI(비열등성) 시험 자체와 그 시험에서의 비교자가 효과 있었다는 역사적 증거를 통해 얻은 정보의 합성물이다. 역사적 시험은 Ch – P 즉, 위약 대비 활성 대조 약물의 효과를 평가했다.
NI(비열등성) 시험은 T- Cn 즉, 활성 대조 약물 대비 시험 약물의 효과를 평가한다. 활성 대조 약물에 대한 결과가 연구 간 일정한 경우 Cn = Ch 및 합계 T - Cn + Ch – P = T – P는 위약 대비 시험 약물의 효과를 나타낸다.
NI(비열등성) 시험의 필수 목적은 이러한 효과가 양성(+)이라는 것을 높은 신뢰를 가지고 입증하는 것이다. 또한 NI(비열등성) 시험은 보통 활성 대조 약물의 역사적 효과와 비교하여 최소한 대략적이나마 이러한 효과를 추정하도록 고안된다.
역사적 연구는 Ch – P의 추정에 관련 표준오차 SHE를 제공할 것이다. 이와 같이 NI(비열등성) 연구는 표준오차 SEN을 가지고 T - Cn을 추정할 것이다. 2개 추정은 독립적이기 때문에 합계의 표준오차는 다음과 같이 구할 수 있다.
NI(비열등성) 연구의 해석이 기본적으로는 합성물이라는 점에도 불구하고 우리는 2개의 별도 단계로 문제를 다루는 통계법인 고정 마진법을 권장한다. 이 접근법은 2개의 실질적 이점을 갖고 있다. 첫째, 이것은 NI(비열등성) 연구를 분석하는 문제로부터 NI(비열등성) 마진 M1과 M2를 계산, 정당화 및 조정하는 문제를 분리시킬 수 있게 해준다. 둘째 이것은 합성된 추정에 다소 더 큰 표준오차를 적용하는 것과 동일한데, 이러한 것은 일관성으로부터 사소한 이탈 가능성에 대한 허용으로 볼 수 있다.
1. 고정 마진 접근법 The Fixed Margin Approach
NI(비열등성) 시험에서 분석을 위한 고정 마진 접근법은 잘 알려져 있다 (예를 들어 ICH E9 3.3.2 절을 참조).
이 접근법은 NI(비열등성) 시험 설계 단계에서 미리 지정되고 비열등성의 가설 검정에 충분한 힘을 주기 위해 필요한 표본 크기를 정하는 용도로 사용되는 고정 NI(비열등성) 마진 선택에 의존한다. 운영적으로, 고정 마진 접근법은 보통 다음과 같은 방식으로 진행된다.
첫째, 활성 대조 약물의 과거 위약-대조 연구에 대한 분석을 통해 활성 대조 약물 효과를 추정한다 (IV.B.2.a-b 절 참조).
이 분석의 목적은 NI(비열등성) 연구에서 활성 대조 약물이 가질 것으로 예상되는 효과 이하여야 하는 활성 대조 약물의 과거 효과에 기반한 고정 값 즉, 마진 M1을 규정하는 것이다. 일관성 가정뿐만 아니라 과거 연구 간 관찰되는 치료 효과의 가변성은 M1을 선정할 때 고려되어야 한다.
이후 M2 선정은 약물 승인을 위해 충분한 이익을 입증하고자 할 때 얼마나 많은 활성 비교자 치료 효과가 보유되어야 하는지에 관한 임상적 판단을 기반으로 한다.
M2 결정을 위한 임상적 판단은 M1 결정 이후에 이루어진다. 이 연구 내 무작위 추출된 모든 환자와 활성 비교자에 대한 모든 관련 연구는 일반적으로 마진 M1을 결정할 때 활용하는데, 그 이유는 그러한 것이 활성 대조 약물 효과의 보다 신뢰할 수 있는 추정을 제공하며 어떤 역사적 연구를 포함시킬지를 선택할 때 편견 가능성을 없애주기 때문이다. 그러나 과거 연구의 관련성 판단은 간단하지 않을 수 있으며, 별첨의 예시 1(A)와 2에서 이러한 사항을 설명한다.
과거 연구를 기반으로 한 추정 활성 대조 약물 효과의 신뢰구간 하한은 보통 M1으로 선정된다.
과거 가변성과 일관성에 관한 우려로 인해 이전 절에서 논의한 바와 같이 역사적 데이터와 실시할 NI(비열등성) 연구 간 불일치와 불확실성의 원인을 감안하기 위해 M1을 선정할 때 이러한 하한을 할인(discount)해야 한다고 판단할 수도 있다. 이후 이러한 효과의 얼마나 많은 부분을 보존해야 하는지에 관해 임상적 판단이 이루어진다.
M2를 M1의 50%로 선정하는 것은 효과가 작을 수 있는 심혈관(CV) 결과 연구의 경우 일상적 시행으로 되었으며, 최초 치료 효과의 절반 이상을 보존해야 한다. 항생제 시험의 경우 효과는 위약 또는 효과 없는 치료와 비교하여 매우 큰 경향이 있으며, 결과적으로 치료 차이(M2)에 대한 10-15% NI(비열등성) 마진이 일반적으로 선정된다. M1 50%의 M2는 상대적 척도에 있는데 반해, 10-15%는 항생제 약물에 대한 위험 차이 척도에 있다는 점을 유념한다.
또한 NI 가설의 공식 검정은 95% 신뢰구간 활용을 포함한다 (즉, C-T > M2를 배제하는 것). 따라서 고정 마진 접근법에는 2개의 신뢰구간이 포함되는데, 하나는 하한을 M1으로 선정하는 역사적 데이터용이고 다른 하나는 NI(비열등성) 연구용(C-T > M2를 배제하는 것)이다. 양 구간은 보통 95% 신뢰구간이다. 그러한 이유로 이러한 고정 마진 접근법은 때때로 95%-95%법으로 불린다.
NI(비열등성) 연구의 분석으로부터 역사적 데이터(즉, M1 선정)를 기반으로 한 활성 비교자의 치료 효과를 추정하는 프로세스를 분리시키는 것은 2가지 이점을 안고 있다. 이것은 M1 (및 도출된 M2)에 대해 임상적으로 이해할 수 있으며, 미리 지정된 NI(비열등성) 마진에 대해 목표를 충족하기 위해 NI(비열등성) 연구에 필요한 힘과 제I형 오차의 대조를 달성할 수 있도록 NI(비열등성) 연구의 표본 크기를 기획하기 위한 근거가 되는 단일 숫자를 제공한다. M1을 추가 할인하거나 아니면 적합한 경우 더 협소한 신뢰구간을 사용하기 위한 결정은 쉽게 설명할 수 있으며 고정 마진 접근법을 다소 보수적으로 만들 것이다.
NI 임상 마진 M2에 대한 결정은 얼마나 큰 대조 치료 효과 손실을 수용할 수 있는지에 대한 판단, 결과의 심각도를 반영할 수 있는 고려사항, 활성 비교자의 이익 그리고 시험과 비교자의 상대적 안전 프로파일의 문제이다. 또한 M2 선정은 주요한 실질적 함의도 지닌다.
예를 들면 대규모 심혈관 연구에서, 임상적으로 합당할 수 있을지라도 대조 약물 효과 50% 이하의 손실을 반영하는 M2를 취하는 것은 드물다. 왜냐하면 그렇게 하는 경우 보통 연구 규모를 실행 불가능하게 하기 때문이다. 물론 (특히 사망률과 심각한 이환율의 평가변수에 대해) 표준 대비 시험 약물의 너무 많은 열등성을 허용하는 것은 분명히 수용할 수 없다.
고정 마진 접근법은 NI(비열등성) 연구 전에 고정되는 단일 숫자로서 NI(비열등성) 마진을 고려한다. NI(비열등성) 연구에서 검정을 거치는 가설은 물론 활성 대조 약물이 최소한 예상 효과(M1과 동일함)를 가졌다고(즉, 연구는 어세이 민감도를 가졌음) 가정하면서 활성 대조 약물 대비 시험 약물의 비교가 지정된 NI 기준을 충족하는지 여부를 좌우한다.
차이 > M1을 배제하는 성공적인 NI 결론은 (p ≤ 0.05 복용량에서 유의한 효과를 입증하는 우월성 시험과 같이) 시험 약물이 효과 있다는 것을 입증하며, 차이 > M2도 배제하는 경우에는 신약이 대조 약물 효과의 원하는 분율(fraction)을 보존한다는 것을 입증한다.
2. 합성 접근법 The Synthesis Approach
대체 통계 접근법은 2개 데이터원(HESDE를 결정하는 용도로 사용되는 과거 연구 및 현재 NI(비열등성) 연구)의 가변성을 반영하면서 역사적 시험이나 현재 NI(비열등성) 시험의 데이터를 조합하거나 합성하기 때문에 합성 접근법이라고 한다.
합성법은 시험 제품이 NI(비열등성) 연구에서 위약이 있었더라면 위약보다 우월했을 지에 관한 문제를 직접적으로 다루고, 또한 활성 대조 약물 효과의 어떤 분율이 시험 제품에 유지되는지에 관한 문제를 다루도록 설계된다.
합성 접근법에서 M1은 사전에 지정되지 않지만 보존될 활성 대조 약물 효과의 퍼센트는 사전에 지정된다.
NI(비열등성) 연구에서 시험 약물 대 활성 대조 약물 비교의 관찰 결과를 기반으로 하여 M1을 정하지 않은 상태에서 시험제가 활성 대조 약물의 임상적으로 관련한 효과 보존을 시연했는지에 관한 평가가 이루어진다.
합성 접근법은 NI(비열등성) 연구에서 시험 약물과 병행 활성 대조 약물의 비교에 역사적 시험의 데이터를 조합할지라도 위약과의 직접적인 무작위 추출된 병행 비교가 당연히 불가능하다. 그 이유는 위약 그룹이 병행 대조가 아니며 NI(비열등성) 연구 내 그러한 그룹에 대한 무작위 추출이 없기 때문이다. 따라서 NI(비열등성) 연구의 일부가 아닌 위약 그룹과의 귀속 비교(imputed comparison)는 고정 마진 접근법이 그러하듯이 몇몇 가정의 타당성에 달려 있다.
역사적 위약-대조 시험을 통해 도출한 활성 대조 약물 효과의 일관성에 대한 핵심 가정은 고정 마진법이 사용될 때와 같이 합성법이 사용될 때 중요한 사항이다.
합성 접근법의 사용은 일관성 가정이 유지되는 경우 (표본 크기를 축소할 수 있게 하거나 주어진 표본 크기에 대해 더 큰 힘을 달성함으로써) 고정 마진 접근법보다 더 효율적으로 설계된 연구를 이끌어낼 수 있다.
합성 접근법의 보다 큰 통계적 효율성은 이 방법이 활성 대조 약물 대비 시험 제품의 비교 표준오차를 다루는 방법을 통해 도출된다. 2개 방법의 비교와 분산 계산은 별첨의 예시 1(B)를 참조한다.
합성 접근법은 고정 NI(비열등성) 마진을 지정하지 않는다.
오히려 이 방법은 역사적 시험의 메타분석을 통해 얻은 대조 효과 추정과 NI(비열등성) 시험을 통해 얻은 대조 대비 치료 효과의 추정을 조합 (또는 합성)한다.
합성 프로세스는 NI(비열등성) 시험과 역사적 시험의 타당성을 활용하며, 대조 효과를 기반으로 하여 특정한 고정 NI(비열등성) 마진이나 해당 대조 효과를 사실상 지정하지 않고서 치료가 대조 효과의 고정 분수를 보존한다는 NI 가설을 검정하기 위해 하나의 신뢰구간을 산출한다. 대조 효과의 규모와 상관없이 시험 약물에 유지되어야 하는 대조 치료 효과의 수용 가능한 분수를 미리 지정하려면 임상적 판단을 활용한다.
합성 접근법의 단점은 NI(비열등성) 시험전에 M1의 규모를 기반으로 하여 M2를 선정하기 위해 임상적 판단을 활용하는 것이 불가능하다는 것이다.
D. 임상적 마진(M2) 선정을 위한 고려사항 Considerations for Selecting the Clinical Margin (M2)
M2는 NI(비열등성) 연구에서 배제되어야 하는 사전 지정된 NI(비열등성) 마진이다. 임상적 판단을 기반으로 하는 M2의 결정은 보통 M1의 퍼센티지나 분수를 취함으로써 계산할 수 있다.
M2를 결정하는데 있어서 임상적 판단은 심혈관 결과 연구와 관련하여 전술하였듯이 실제 질병 발생율이나 출현율뿐만 아니라 연구를 위해 누적되어야 하는 표본 크기의 실용성에 대한 이것의 영향을 고려할 수 있다.
예를 들면 다음과 같을 때 더 넓은 마진을 선택하면서 M2 마진 선정에 있어서 유연성이 있을 수 있다.
- 1차 평가변수가 사망과 같은 비가역적 결과를 포함하지 않는다 (일반적으로 M2 마진은 치료 실패로 인해 비가역적 결과가 발생할 때 더욱 엄격할 것이다).
- 시험 제품이 이미 이용 가능한 다른 치료보다 더 적은 중증 이상반응이나 더 나은 내성과 연관 있다.
- 시험 제품이 덜 엄격한 마진(M2)의 사용을 보증하는 가용 가능한 치료 대비 또 다른 이점을 가지고 있다.
그러나 NI(비열등성) 연구에 실행할 수 없는 표본 크기를 요구하지 않고서 M1의 더 큰 분율의 보존을 시연할 수 있게 하면서 활성 비교자 반응율과 미치료 반응율 간 차이가 큰 경우에는 M2를 보다 엄격하게 선정하는 것이 필요할 수도 있다.
M1과 M2 대비 열등성을 배제하지 않음으로 인한 함의는 다르다. M1 대비 열등성을 배제하지 않는 것은 어떠한 효과의 보증도 없다는 것을 의미한다.
p>0.05를 가지고 위약-대조 연구를 양성(Positive, 즉, 우월한 연구결과)으로 수용하는 것이 흔하지 않은 것과 같이 95% 신뢰구간의 상한이 > M1인 경우 NI(비열등성) 연구를 양성(즉, 비열등성 연구결과)으로 수용하는 것도 흔하지 않다.
반면 (M1의 사전 지정된 50% 손실이 아니라 M1의 52% 손실을 배제하는 것과 같이) 소량으로 M2를 제외하지 않는 것은 수용할 수도 있다. 그 이유는 이런 소량은 약물의 효과 없음을 의미하지 않기 때문이다.
E. 표본 크기 추정 Estimating the Sample Size
시험 약물이 진짜 열등하지 않은 경우 NI(비열등성) 마진을 배제한다는 결론을 내리기에 시험이 적합한 통계적 검정력을 지닐 수 있도록 NI 임상 시험에 대한 표본 크기를 계획해야 한다.
시험 계획서 기획 단계에서, 고정 마진 접근법을 이용하여 NI(비열등성) 마진(M2)이 지정되며 표본 크기는 그러한 마진을 배제해야 한다는 필요성을 기반으로 한다.
마진 크기와 치료 효과의 추정 분산(T 대 C)은 표본 크기 결정에 영향을 미친다.
사건을 평가하는 임상시험(event-driven trials)의 경우 NI(비열등성) 연구에서 사건 발생율이 예상보다 더 적다면 비열등성을 입증하는 검정력은 줄어든다. 따라서 중간 발생율이 예기치 못하게 낮은 경우 표본 크기를 조정하고 연구 동안에 전반적인 (맹검식) 발생율을 모니터해야 할 수도 있다 (우월성 시험에서는 보편적인 관례).
표본 크기 계획 시 추가 고려사항이 하나 더 있다. 사실상 시험 약물이 대조약물보다 다소 더 효과적인 경우, 시험 약물이 대조와 동등하거나 다소 열등한 경우보다 주어진 NI(비열등성) 마진을 배제하기가 한결 더 쉬우며 더 작은 표본 크기를 사용할 수 있다.
물론 다소 효과가 더 적은 시험 약물은 더 큰 표본 크기가 필요하다.
연구 기획 시점에 발생율이나 endpoint 가변성과 같은 가정에 대한 불확실성 때문에 NI(비열등성) 연구를 비롯한 어떤 연구에 적합하게 표본 크기를 계획하는 것이 어려울 수도 있다. 이러한 이유로 한 번 이상의 예정된 중간 관찰에서 더 큰 표본 크기의 전향적 재추정을 고려할 수 있는 순응적 연구 디자인(adaptive study design)을 고려할 수도 있다.
F. 연구 품질과 분석군 선정 Study Quality and Choice of Analysis Population
전통적으로 무작위 배정 임상적 우월성 시험(randomized clinical superiority trial)의 1차 분석(primary analysis)은 치료 의도(ITT, intention-to-treat) 원칙을 따른다. 즉, 무작위 배정된 모든 환자는 연구를 완전 떠나는 환자를 비롯하여 무작위 배정된 치료법에 따라 분석된다.
이러한 접근법은 시험 계획서 위반이나 소모(attrition) 때문에 분석에서 제외되는 환자 또는 치료를 변경하는 환자와 연관된 다양한 편향을 방지하고자 함이다.
우월성 시험에서 ITT 원칙을 고수하는 것은 일반적으로 다수의 시험 계획서 위반으로 인해 발생하는 나쁜 연구 품질(poor study quality)이 치료들 간 차이가 없음의 귀무가설 쪽으로 결과를 편향시키는 경향이 있다는 점에서 보수적이라고 볼 수 있다.
NI(비열등성) 시험의 경우에는 정반대이다. III.D.3 절에서 언급했듯이 사실상 시험 약물이 열등할 수도 있을 때 품질 문제로 치료 그룹들이 유사하게 보이도록 할 수 있다 (즉, NI(비열등성) 시험의 경우 대립가설 쪽으로 결과를 편향시키는 것).
미준수(non-adherence), 1차 평가변수의 잘못된 분류 또는 소모와 같은 우월성 시험 실패를 야기할 수 있는 수많은 문제가 연구 결과를 치료효과 차이가 없음(성공) 쪽으로 편향시키고 시험 타당성을 저해하여, 시험 약물이 사실상 열등할 때 겉으로 보이는 비열등성을 도출할 수 있다.
비열등성 귀무가설 하에서 결측치의 대치(imputation of missing data)는 소모(attrition)로 인한 편향에 대응할 수 있는 한 가지 접근법이다.
NI(비열등성) 연구 진행을 위한 최상의 조언은 기획 단계에서 연구 품질을 중시하고 진행과 분석 단계에서 시험을 지속적으로 모니터링하여 전술한 문제를 최소화해야 한다는 것이다.
NI(비열등성) 시험이 공개방식(open label)인 경우 연구 이후에 환자 등록, 평가변수의 평가 및 그 외 연구 절차를 공정하게 진행했다는 것을 입증하기가 매우 어려울 수 있기 때문에 품질에 대한 주의가 더더욱 중요해진다.
G. 단일 시험에서 비열등성과 우월성 검정 Testing Non-Inferiority and Superiority in a Single Trial
일반적으로 하나의 1차 평가변수와 하나의 시험 치료 복용량만이 있을 때에는 비열등성을 입증하도록 기획된 시험을 활용하여 제I형 오류율 증가(inflating the Type I error rate)에 대한 우려 없이 우월성에 대해 시험할 수도 있다.
이러한 순차적인 시험 절차(sequential testing procedure)는 비열등성과 우월성 시험 모두에 대해 2.5% 수준으로 통제되는 제I형 오류율을 가진다. 그러나 주로 우월성을 입증하도록 설계된 연구는 NI(비열등성) 연구의 핵심 특징을 가진 경우에만 신뢰할 수 있는 비열등성 증거를 도출한다 (예: NI(비열등성) 마진이 사전에 지정되어야 하고 어세이 민감도와 HESDE가 설정되어야 한다). 시험 결과가 확인될 때까지 마진이 결정되지 않은 경우, 우월성 입증 실패 이후 계획에 없던 비열등성의 측정은 시험 약물의 비열등성을 입증하기에 충분하지 않다.
우월성에 대한 시험도 포함하는 NI(비열등성) 연구에서 다수 평가변수나 다수 시험 치료 복용량을 평가하는 경우 가설 검정을 실시해야 하는 순서에 대해 세심한 기획이 필요하다.
예를 들면 1차 평가변수의 우월성을 핵심 2차 평가변수의 비열등성 평가 전에 검정할 것인가 아니면 이후에 검정할 것인가?
다중검정에 대한 조정(adjustment for multiplicity)이 필요한지 여부를 결정할 때 그리고 제I형 오류율의 적합한 통제가 임상시험에서 달성될 수 있도록 하기 위해 어떤 검정을 적용할지를 결정할 때 의사결정 트리(decision tree)가 유용할 수 있다.
일반적으로 임상시험 동안에 제I형 오류율 증가의 가능성이 있기 때문에 다수의 평가변수(multiple endpoints)나 다수 복용량(multiple doses) 간 비열등성과 우월성의 다중 검정(multiple tests)에 대해 95% 신뢰구간을 적용하는 것은 적합하지 않다. 다중 검정에 대한 조정을 반영하는 더 넓은 구간(예: 97.5% 이상의 신뢰구간)을 활용해야 할 수도 있다.
V. 자주 묻는 질문 및 일반 지침 Frequently Asked Questions and General Guidance
1. NI(비열등성) 연구에서 평가되는 질병에 대해 활성 대조 약물의 역사적 위약-대조 시험이 없는 경우 마진을 규정할 수 있는가?
1. Can a margin be defined when there are no historical placebo-controlled trials of the active control for the disease being assessed in the NI study?
활성 대조 약물이 과거에 다른 활성 치료 대비 우월성을 입증한 경우 이 입증된 차이는 HESDE의 보수적 추정 즉, 확실히 M1을 선정하는 근거로서 역할을 할 수 있는 것을 의미한다. 또한 관련 질병에서 활성 대조 약물의 시험이 관련 있을 수도 있다.
보다 어려운 문제는 동시적으로 대조되지 않는 시험(non-concurrently controlled trials)을 통해 얻은 역사적 경험을 활용하여 NI(비열등성) 마진을 규정할 수 있냐 하는 것이다. 대답은 가능하다 이다. 하지만 역사적으로 대조된 시험의 설득력을 평가하는 것에 관한 다음의 3가지 일반적 기준을 충족하는 경우에만 가능하다 (ICH E10 참조).
- 첫째, 역사적 미치료 반응율(historical untreated response rate)이나 치료가 없는 결과(outcome without treatment)에 대한 우수한 추정치(good estimate)가 있어야 한다. 의학 문헌의 조사와 그 외 정보원이 이러한 추정의 기반이 되는 데이터를 제공해줄 수 있다 (예: 경과(natural history)에 대한 역사적 정보 또는 비효과적인 치료의 결과).
- 둘째, 활성 대조 약물의 치료율(cure rate)은 역사적 경험을 통해 특히 관찰 연구를 비롯한 다양한 환경에서 여러 경험을 통해 추정되어야 한다.
- 셋째, 미치료 및 치료 받은 환자는 비교 가능해야 한다.
이후 치료 및 미치료 반응율이 상당한 차이를 보이는 경우 NI(비열등성) 마진을 결정할 수도 있다. 예를 들면 질병의 자연 치료율이 10-20%이고 활성 대조 약물을 이용한 치료율이 70-80%인 경우 이러한 비율은 상당한 차이가 있는 것으로서 M1을 구하는 용도로 활용할 수 있다. 이후 M2를 위해 이러한 효과의 임상적으로 수용 가능한 손실을 구할 수 있다.
이러한 식으로 구한 마진에 대한 몇몇 사례가 지역사회 획득 박테리아성 폐렴에 대한 시험과 같이 항생제 시험에 대한 지침으로 제시되어 있다 (별첨의 예시 4 참조). 자연 치료율과 활성 약물 치료율 간 차이가 작은 경우에는 마진을 식별하기가 더욱 어렵다.
예를 들면 역사적 자연 치료율이 40%이고 활성 대조율이 55%인 경우 그러한 작은 차이는 상이한 질병 정의나 보조 치료의 결과일 수 있기 때문에 이 경우 NI(비열등성) 마진을 15%로 식별하는 것은 합당하지 않다. 치료를 받지 않은 환자의 치료율과 활성 대조 약물의 역사적 치료율이 실제 연구를 통해 전혀 알려져 있지 않은 경우(즉, 임상적 인상(clinical impression)에만 기반한 경우) NI(비열등성) 마진을 규정하는 것은 어렵거나 불가능하다.
2. 마진 M2는 유연할 수 있는가?
2.Can the margin M2 be flexible?
III와 IV 절에서 상세히 논의했듯이 미진 M1과 M2가 충족되었다는 것을 입증하는 것 간에 상당한 차이가 있다. M1은 NI(비열등성) 연구가 시험 약물이 효과를 가진다는 것을 입증하는지 여부를 판단하는 용도로 활용된다.
95% 신뢰구간이 M1 이상의 손실을 배제하지 않았다는 결과를 수용하는 것은 추정 치료 효과가 p ≤ 0.05에서 유의하지 않았던 우월성 연구를 유효성의 증거로 수용하는 것과 유사하다.
반면 M2는 보유되어야 하는 활성 대조 약물 효과의 양에 대한 임상적 판단을 나타낸다. M2에 대한 전형적인 값은 M1의 50%인 경우가 많은데, 그 이유는 일부분 활성 대조 약물 효과의 더 큰 양(예: 60% 이상)을 보유하는데 필요한 표본 크기가 비현실적으로 커지기 때문이다. 이 경우 연구가 M2 마진을 배제하지 않은 경우 어느 정도의 유연성을 위한 보다 나은 주장이 있다.
예를 들면 48% 보유 보증(assurance of 48% retention)을 수용 가능한 것으로 간주해야 하는 이유가 있을 수 있다. 또한 우리는 보다 보수적인 고정 마진법이 일반적으로 M1을 배제시키는데 사용되어야 하지만 합성법을 이용하여 M2와 관련한 비열등성을 평가할 수 있다는 결론을 내렸다. 물론 (특히 사망률과 심각한 이환율의 평가변수에 대해) 시험 약물이 매우 큰 양으로 표준 대비 열등하도록 하는 것은 수용 불가하다.
3. NI(비열등성) 마진을 선정할 때 또는 NI(비열등성) 연구가 그 목적을 입증했는지 여부를 결정할 때 과거 정보 또는 기타 데이터(예: 관련 약물 연구, 약학적 효과)를 통계적으로 고려할 수 있는가?
3. Can prior information or other data (e.g., studies of related drugs, pharmacologic effects) be considered statistically in choosing the NI margins or in deciding whether the NI study has demonstrated its objective?
다른 관련 적응증(other related indications)에서 또는 다른 평가변수(other endpoints)로부터 사전 정보(prior information)를 통계 모형이나 베이지안 방법(Bayesian framework)에 통합하여 효과의 증거로써 사용할 수 있다.
IV.B.2.b 절에서 논의했듯이 메타분석은 종종 NI(비열등성) 마진을 설정하는 목적으로 활성 대조 약물의 평균 효과를 추정하는 용도로 활용되며, 특정 경우 관련 표시를 통한 또는 동일한 등급의 다른 약물에 대한 시험이 이러한 목적으로 시행되는 메타분석에 포함될 수도 있다. 몇몇 메타분석법은 무작위 배정되지 않거나 대조되지 않는 연구 또는 관련성이 덜한 연구(예: 관찰 연구)의 down-weighting을 허용하며, 이러한 것은 위약-대조 시험을 거의 구할 수 없는 경우 특히 중요할 수 있다.
모델 파라미터의 사전 분포를 활용하여 과거 활성 대조 약물 연구의 역사적 정보를 사용하는 Bayesian법은 NI(비열등성) 시험 자체에서의 비열등성을 평가하기 위한 대체 접근법을 제공해준다. 문헌에서 논의되어 있고 다른 연구 환경에서 사용될지라도 CDER과 CBER은 설계와 분석을 위해 Bayesian 접근법을 활용하는 신약이나 치료 관련 생물제제의 NI(비열등성) 시험을 평가하는데 있어서 현재까지 많은 경험을 갖지 못했다. 의뢰자는 Bayesian NI(비열등성) 시험 진행을 계획하고 있다면 기관과 미리 논의하는 것이 바람직하다.
현재 NI(비열등성) 연구에서보다 역사적 연구에서 중요한 공변량이 상이하게 분포되는 경우 모델 기반 접근법(model-based approaches)을 활용하여 NI 분석에서 이러한 공변량을 조절할 수 있다. 그러한 공변량은 NI(비열등성) 시험 전에 확인해야 하며 공변량 조정법은 NI(비열등성) 시험 계획서에 전향적으로 명시해야 한다. NI(비열등성) 시험의 분석 시점에 사후 조정(post-hoc adjustments)을 적용하는 것은 적합하지 않다.
4. 연구 대상 질병에 대한 표시가 제품 라벨링에 없는 경우 비열등성을 입증하도록 설계된 연구에서 약물 제품을 활성 비교자로 사용할 수 있는가? 그리고 문헌에 게재된 보고서를 활성 대조 약물의 치료 효과를 지지하는 용도로 활용할 수 있는가?
4. Cam a drug product be used as the active comparator in a study designed to show non-inferiority if the product's labeling does not have the indication for the disease being studied, and could published reports in the literature be used to support a treatment effect of the active control?
선정된 NI(비열등성) 마진을 지원하기 위해 신뢰할 수 있고 재현 가능한 적합한 데이터가 있는 경우 NI(비열등성) 연구에서 연구 대상 표시에 대해 미국에서는 활성 대조 약물을 라벨링하거나 승인할 필요가 없다. FDA는 몇몇 경우 간행된 문헌을 활용하며, NI(비열등성) 마진을 규정하는 용도로 사용되는 활성 대조 약물 효과에 대한 메타분석을 실시할 때 그렇게 해왔다. FDA 지침 “유효성에 대한 중요 증거 제출”에서는 유효성에 대한 증거를 제출하는데 있어서 문헌 활용을 고려하는 것에 관한 접근법을 설명하며 유사한 고려가 여기에서도 적용된다. 이러한 고려 중 일부는 다음과 같다.
- 간행물의 품질 (제공되는 상세 수준)
- 사용하는 평가변수를 평가하는데 있어서 어려움
- 현재와 연구 시점 간 시행에 있어서 변화
- FDA가 연구의 일부 또는 전부를 검토했는지 여부
- FDA와 의뢰자가 원데이터에 접근할 수 있는지 여부
전술한 바와 같이 NI(비열등성) 연구의 평가변수는 대체 평가변수가 잘 평가되고 그 평가변수에 대한 데이터가 M1을 결정하는데 사용 가능한 경우 연구에서의 1차 평가변수(심혈관 관련 사망)과 다를 수 있다(예: 사망, 심장마비 및 뇌졸중) (질문 6도 참조).
5. 연구되고 있는 적응증에 대해 활성 대조 약물이 승인되는 경우 마진을 정당화해야 하는가? 아니면 활성 대조 약물이 현재 연구와 유사한 설계의 또 다른 연구에서 과거에 활성 비교자로 활용되었고 마진이 이전에 정당화된 경우 단순히 사용된 이전 마진을 참조할 수 있는가?
5. If the active control drug is approved for the indication that is being studied, does the margin need to be justified, or if the active control drug has been used as an active comparator in the past in another study of design similar to the current study and a margin has been justified previously, can one simply refer to the previous margin used?
NI(비열등성) 시험의 경우와 동일한 적응증(indication)에 대해 활성 대조 약물이 승인되는 경우 활성 대조의 라벨에 명시되는 효과 규모는 보통 모든 과거 연구의 메타분석이 아니라 확증적 임상시험(pivotal trial)을 기반으로 한다.
또한 과거 연구들 간 효과의 가변성(variability of the effect)을 구할 수 없을 수도 있다.
일반적으로 약물 승인은 (보통 2개 이상 연구에서의) 위약 대비 우월성 입증을 기반으로 하지만 FDA는 효과가 과거 연구들 간 일관성이 있는지를 평가하지 않았었을 수 있고 “실패한” 연구를 분석하지 않았었을 수도 있다. 따라서 실제 대조 효과의 합리적인 추정을 계산하기 위해 시판후에 실시되는 시험을 비롯하여 (시험이 유의한 결함을 갖고 있지 않는 한) 이용 가능한모든 대조 시험을 통해 얻은 데이터를 활용해야 한다. 동일한 적응증의 또 다른 연구를 위해 NI(비열등성) 마진을 규정하고자 활성 대조 약물 데이터를 활용한 경우 그리고 포함된 시험이 새 시험과 관련 있다는 결정이 내려지는 경우 새 시험에서 동일한 마진의 사용은 수용 가능하다.
6. NI(비열등성) 시험에 대한 평가변수를 선택할 때 어떤 요소를 고려해야 하는가?
6. What factors should be considered when selecting an endpoint for a NI trial?
임상 시험(우월성 또는 비열등성)용으로 선정된 평가변수는 타겟 모집단에서 신뢰할 수 있는 평가가 이루어질 수 있도록 환자가 느끼거나, 기능하거나, 생존하는 방식에 대한 임상적으로 의미 있는 측정이어야 한다.
평가변수는 일반적으로 모집단에서 질병의 발생율이나 기타 측정을 반영하지만 평가변수와 관련한 우월성이나 비열등성을 입증하는데 필요한 연구 규모와 같은 실질적 고려사항도 감안해야 한다. NI(비열등성) 연구에서 평가변수는 활성 대조 약물의 효과를 알기 위한 우수한 근거가 있는 것이어야 한다.
평가변수는 반드시 역사적 시험에 사용된 평가변수 또는 활성 대조 약물의 라벨링에 나타나는 유효성 평가변수일 필요가 없다.
사망률 평가변수에 대한 효과를 입증하는데 성공했던 과거 시험은 (예를 들면) NI(비열등성) 연구를 위해 원하는 평가변수인 경우 합성 평가변수(심혈관 관련 사망, 심근경색증 및 뇌졸중)에 대한 효과를 추정하기 위한 근거로서 역할을 할 수 있다.
NI(비열등성) 연구에서 상이한 평가변수의 사용은 더 적은 규모의 연구를 허용하기 때문에 바람직할 수도 있지만 활성 대조 약물에 의해 영향받지 않았거나 중요한 임상 이익을 나타내지 않았던 구성요소를 포함시키지 않아야 한다.
7. NI(비열등성) 연구 진행이 실행 불가능할 수 있는 상황이 있는가?
7. Are there circumstances where conducting an NI study may not be feasible?
불행히도, 위약-대조 연구가 비윤리적이라고 여겨지는 것을 포함하여 몇 가지 상황이 있다. 몇몇 예시를 들자면 다음과 같다.
- 활성 비교자의 치료 효과가 NI(비열등성) 연구를 진행하는데 요구되는 표본 크기가 실행 불가능할 정도로 작을 수 있다 (단, 시험 약물이 우월하다고 간주되는 경우는 예외이다).
- 치료 효과에 있어서 대규모의 연구 대 연구 가변성이 있다. 이 경우 치료 효과는 어세이 민감도 가정에 의문을 제기하면서 충분히 재현 가능하지 않을 수 있다. 이러한 것은 종종 대증요법(symptomatic treatments)의 경우에 해당한다 (예: 우울증, 초조, 불면증, 협심증, 증상적 심장질환, 자극성 장질환 증상 및 통증).
- NI(비열등성) 마진을 구하기 위해 이용 가능한역사적 증거가 없으며, 미치료 환자에 대해 0 반응율을 가정하는 것은 합리적이지 않다.
- 의료 시행(medical practice)이 너무 많이 변해서(예: 활성 대조 약물이 항상 추가 약물과 함께 사용된다) 역사적 연구에서 활성 대조 약물의 효과가 현재 연구와 관련성이 없다.
8. 위약-대조 시험이 비윤리적이라고 여겨지지만 NI(비열등성) 연구를 수행할 수 없는 경우 옵션은 무엇인가?
8. In a situation where a placebo-controlled trial would be considered unethical, but a NI study cannot be performed, what are the options?
그러한 경우 윤리적이라고 여겨지는 적합한 인구를 대상으로 하여 우월성 연구를 설계할 수 있다. 몇몇 가능성이 ICH E10에 논의되어 있는데, 예를 들면 다음과 같다.
- 신약과 설정된 치료가 약학적으로 고유한 경우 시험 약물과 위약이 설정된 치료에 각각 추가되는 추가 연구
- 설정된 치료에 반응하지 않는 환자를 대상으로 한 연구. 이러한 환자를 대상으로 하여 위약-대조 시험을 실시할 수도 있다. 다른 방법으로서 미반응자를 미반응 인구에서 유효성 입증을 위해 평가된 우월성뿐만 아니라 시험 약물이나 실패한 치료에 무작위로 배정할 수 있다.
- 설정된 유효한 치료를 견딜 수 없는 환자를 대상으로 한 연구
- 이용 가능한유효한 치료가 없는 인구에 대한 연구
- 신약이 복용량 관련한 부작용을 가지고 있는 것으로 확인되고 일상 복용량 이하의 복용량이 윤리적이라고 여겨지는 경우 위약 없는 용량-반응 연구
9. 단일 NI(비열등성) 연구는 유효성을 입증하기에 언제 충분할 수 있는가?
9. When can a single NI study be sufficient to support effectiveness?
상기의 몇몇 절에서 이 문제를 다루는데, 특히 III.H 절에서는 이 문제를 세부적으로 논의한다.
간략하게 말하자면, NI 환경에서 단일 연구에 대한 의존은 M2 마진을 이용하여 비열등성을 입증하는 엄격함에 대한 추가 고려와 함께 우월성 환경에서 단일 연구에 대한 의존과 유사한 고려를 기반으로 한다.
이러한 고려 대부분이 FDA 지침 “유효성에 대한 임상적 증거 제출”에 설명되어 있으며, 약학적으로 유사한 물질에 대한 결과와 같은 지원적 정보(NI(비열등성) 연구는 종종 동일한 약학적 등급의 약물을 비교하기 때문에 매우 보편적인 고려), 신뢰할 수 있는 생체지표 정보를 활용한 지원(종양 반응, ACE 억제, 베타 차단) 그리고 단일 NI(비열등성) 연구를 통한 통계적으로 설득력 있는 결과가 여기에 포함된다.
후자와 관련하여 위에서 주목할 점은 치료 차이 > M2를 배제하는 것을 기반으로 한 NI의 연구결과가 M2가 M1보다 크게 더 적을 때 시험 치료가 효과 > 0을 가진다는 매우 강력한 증거를 제공한다는 것이다. 이러한 모든 이유로 평가변수로서 사망률이나 심각한 이환율을 이용한 대부분 NI(비열등성) 연구는 분명하게 성공하는 경우 단일 연구로서 NI를 입증하기에 충분하다.
* US FDA Guidance "Non-Inferiority Clinical Trials to Establish Effectiveness"의 전문 번역으로 몇 년전에 제가 업무 관련해서 번역했던 것입니다.
US FDA Guidance 원문서 파일 링크
유효성 설정을 위한 비열등성 임상 시험
I. 서론 Introduction
본 문서는 우월성 연구 디자인(superiority study design)(약물 대 위약(drug versus placebo), 용량 반응(dose response) 또는 활성 약물에 대한 우월성(superiority to an active drug) 등)을 사용할 수 없기 때문에 약물이나 생물제제(biologics)의 유효성 증거(evidence of the effectiveness)를 제공하기 위해 시험 약물 신청(IND), 신약 신청(NDA), 생물제제 허가 신청(BLA) 또는 보완 신청을 제출하는 의뢰자(sponsors)와 신청자(applicants)에게 비열등성(NI) 연구 디자인(non-inferiority study designs)의 적합한 사용에 관한 지침[1]을 제공한다.
이 지침은 시험 약물에 대한 유효성을 입증하고자 하는 NI 연구가 어떤 경우에 해석 가능한 결과를 제공할 수 있는지, NI 마진을 어떻게 선택해야 할지, 그리고 NI 가설을 어떻게 검정(test)할 지에 대한 조언을 제공하고 있다.
이 지침은 약물의 안전성(safety of a drug)을 평가하고자 하는 NI 연구 디자인 사용에 관한 권고사항을 제공하지 않는다.
일반적으로 FDA의 지침 문서(guidance documents)는 법적으로 강제성 있는 책임(legally enforceable responsibilities)을 설정하지 않는다. 대신 지침 문서는 주제에 관한 기관의 현재 생각을 설명하므로 권고로서만 봐야 한다. 단, 특정한 규제적, 법적 요구사항(regulatory or statutory requirements)이 인용되는 경우는 예외이다. FDA 지침 문서에서 ‘한다’(should)라는 단어의 사용은 의무사항이 아니라 제안이나 권고를 의미하는 것이다.
[1] 이 지침의 목적에 따라, 약물(drugs)이라고 지칭한 것들은 달리 명시되어 있지 않는 한, 인체 약물과 치료적 생물학적 제제(human drugs and therapeutic biologic products)를 모두 포함한다. 논의된 대부분의 개념은 광범위하게 적용될 수 있긴 하지만, 연구 평가변수가 항체의 농도인 경우 NI 마진 설정과 같은 백신과 관련된 특정 문제는 CBER의 자문이 필요하다.
II. 배경 Background
적절하고 잘 대조된 연구(adequate and well-controlled studies)에 관한 FDA의 규정(21 CFR 314.126)은 유효성의 증거를 제공하는 4종류의 동시 대조 시험을 설명하고 있다. 이것들 중 3가지(위약, 무처치 및 용량-반응 대조 시험)는 시험 약물이 대조군(위약, 무처치 또는 시험 약물의 더 낮은 용량)보다 우수하다는 것을 입증하고자 하는 우월성 시험이다. 4번째 종류- 활성 치료(활성 대조)(active treatment(active control))와 비교도 신약이 대조군보다 더 유효하다(more effective)는 것을 입증하려는 목적을 갖고 있다면 우월성 시험일 수 있다. 그러나 보다 보편적으로 이러한 연구의 목표는 새로운 시험 약물도 역시 유효하다는 결론을 뒷받침하기 위해 현재 연구에서 활성 대조군의 유효성 가정과 과거 연구에서의 성과(performance)를 기반으로 하여 새로운 치료법과 활성 대조군 치료법 간 차이가 미미하다는(활성 대조군의 알려진 유효성을 확인할 수 있을 정도로 미미함) 것을 입증하는 것이다. 신약이 유효하다는 결론을 뒷받침할 수 있도록 이러한 연구를 설계하고 결과를 어떻게 해석할 지를 정하는 것은 매우 어려운 문제이다.
시험 약물의 우월성을 입증하는 것이 아니라 새로운 치료법이 수용 불가능한 정도(unacceptable extent)까지 열등하지는 않다는 것을 입증하고자 하는 활성 대조 시험을 한 때 임상적 동등성 시험(clinical equivalence trials)이라고 불렀다. 그러나 NI(비열등성) 시험의 목적은 그 신약이 동등하다는 것(equivalence)을 입증하는 것이 아니라 대조약보다 실질적으로 나쁘지 않다(not materially worse)는 것을 입증하는 것이다. 따라서 관심사는 한 방향이다. 신약은 대조약보다 더 나을 수도 있으므로 최소한 열등하진 않지만 동등하지 않을 수도 있다.
우월성 시험과 NI(비열등성) 시험 간의 중요한 차이점은 적절하게 설계되어 수행된 우월성 시험이 차이를 입증하는 데 성공할 경우, 추가적인 가정 없이(편향이 없어야 한다(lack of bias)는 가정을 제외하고) 온전히 해석 가능하다는 점이다. 즉, 결과 자체가 자명하며 추가적인 연구 정보가 전혀 필요 없다. 대조적으로, NI 연구는 해당 연구에서는 측정되지 않는 어떤 것, 즉, 활성 대조군이 그 NI 연구에서 기대된 효과를 나타냈다는 것을 아는 데 달려있다. 이 경우 그 시험은 특정 크기인 위약과의 차이를 입증한 능력이라고 규정할 수 있는 어세이 민감도(assay sensitivity)를 지닌다고 말할 수 있다. “성공적인” NI(비열등성) 시험, 즉 치료 간 차이가 용인 가능한 정도로 작다는 것이 입증된 시험은 어세이 민감도를 지니거나 아니면 지니지 않을 수도 있으므로 시험 약물이 유효하다는 결론을 뒷받침하거나 아니면 뒷받침하지 않을 수도 있다. 따라서 활성 대조군이 NI(비열등성) 시험에서 전혀 효과를 지니지 않은 경우(즉, 어떠한 기대된 효과도 지니지 않은 경우) 대조군과 시험 약물 간의 극히 적은 차이가 있음을 배제하는 것조차 의미가 없으며 시험 약물이 유효하다는 증거를 제공하지 못한다. (어세이 민감도에 관한 추가 논의는 III.D 절을 참조하라.) 위약 그룹이 없는 상황에서, 그 시험이 어세이 민감도를 지녔는지 여부를 아는 것은 외부(연구 내 정보가 아님) 정보(external(not within-study) information)에 심히 의존하며, 이는 NI 연구에 과거 대조 연구 특성들(the characteristics of a historically controlled trial)과 일부 겹친다.
1985년 이래로 FDA 규정에서 NI(비열등성) 시험이 해석 가능하려면, 활성 대조군이 그 시험에서 기대되는 효과를 지녔는지를 아는 것이 매우 중요하다는 점이 인지되었다. 이에, 1985년 이래 변한 사항이 없는 21 CFR 314.126(a)(2)(iv)에서는 다음과 같이 명시한다.
만약 시험의 목적이 시험 약물과 대조 약물의 유사성(similarity)을 입증하는 것인 경우, 그 연구의 보고서는 치료법들 간의 차이를 탐지할 수 있을 그 연구의 능력(ability)을 평가해야 한다. 시험 약물과 활성 대조군의 유사성은 두 약물 모두 효과가 있거나 아니면 둘 중 어느 것도 효과가 없다는 것을 의미할 수 있다. 그 연구 분석에서 예를 들면 이전의 위약 대조 연구의 활성 대조 약물 결과를 참조하여 이 연구에서 그 약물이 유효하다고 왜 간주되어야 하는 지를 설명해야 한다. 이 지침은 네 부분으로 구성된다.
III. 비열등성 연구에 대한 일반 고려사항 General Considerations for Non-Inferiority Studies
A. 비열등성 가설 The Non-Inferiority Hypothesis
위약-대조 시험에서 귀무가설(H0)은 시험 약물(T)의 이익적 반응(beneficial response)이 위약(P)에 대한 반응 이하라는 것이다. 또, 대립가설(Ha)은 시험 약물에 대한 반응이 P보다 크다는 것이다. 따라서:
Ho: T ≤ P; T – P ≤ 0
Ha: T > P; T – P > 0
대부분의 경우, 치료 효과에 대한 검정은 T-P에 대해 양측 95% 신뢰구간의 하한(단측 97.5% 신뢰구간의 하한에 해당함)이 >0 이라는 것을 입증하는 것이다. 이러한 결과는 시험 약물의 효과가 0보다 더 크다는 것을 입증한다 (Figure 1 참조).
1. 효과의 점추정치는 2이며 95% CI 하한은 1이다. 결론: 약물은 효과가 있으며 1 이상의 효과를 지닌다.
2. 효과의 점추정치는 2이며 95% CI 하한은 <0이다. 결론: 약물은 효과가 있는 것으로 입증되지 않았다.
3. 효과의 점추정치는 0이고 95% CI 하한은 0보다 훨씬 아래이다. 결론: 약물은 효과가 있는 것으로 입증되지 않았다.
시나리오 2와 3의 결론에 차이가 없을지라도 시나리오 2에서의 신뢰구간 너비와 치료 차이의 크기는 이 시험 약물이 효과가 전혀 없다고 결론 내리기 전에 또 다른 연구(아마도 규모가 더 큰 연구)의 시행을 장려할 수도 있다.
NI(비열등성) 연구에서, 목표는 시험 약물의 효과가 활성 대조의 효과와 충분히 비슷하다는 것을 입증함으로써 시험 약물이 효과 있다는 것을 입증하는 것이다. 연구에서는 위약 그룹이 없기 때문에 활성 대조의 효과가 측정되지는 않지만 효과가 있을 것이라는 가정은 해야 한다. 연구의 목표는 시험 약물(T)의 효과가 NI(비열등성) 마진이라고 불리는 특정한 양 즉, M만큼 활성 대조(C)의 효과보다 열등하지 않다는 것을 입증하는 것이다.
귀무가설과 대립가설은 열등성의 귀무가설과 비열등성의 대립가설에 대응된다. 예를 들면:
Ho: C – T ≥ M (T는 M 이상으로 대조(C)보다 열등하다.)
Ha: C – T < M (T는 M 미만으로 대조(C)보다 열등하다.)
사전에 미리 지정한 NI(비열등성) 마진(M)과 C-T에 대한 양측 신뢰구간의 상한을 비교하여 상기 가설에 대한 통계 검정을 제공한다. 상한이 M 미만인 경우 C 대비 T의 비열등성이 성립된다.
M(가장 큰 가능 값)에 대한 한 가지 선택은 과거의 무작위 대조 시험을 기반으로 하여 위약 대비 활성 대조의 완전히 확인된 효과와 동일하게 이것을 설정하는 것이다. M에 대한 이러한 선택을 가지고(M1이라고 함) 대조 약물이 NI(비열등성) 연구에서 이러한 수준의 효능(efficacy)을 달성한다고 가정하면, 비열등성의 연구결과는 시험 약물이 0보다 더 큰 효과를 가진다는 것을 의미한다 (Figure 2). 보다 일반적인 선택은 M1의 임상적으로 적절한 부분(some clinically relevant portion of M1)과 동일한 크기로 M을 설정, 즉, 임상적 판단(clinical judgement)을 근거로 하여 시험 약물과 함께 보존해야 하는 대조 약물 효과의 부분과 동일하게 M을 설정하는 것이다.
M1의 결정은 NI(비열등성) 시험을 설계하는데 있어서 중요한 단계로서 어려운 경우가 많다. 따라서 이러한 결정이 이 지침의 주요사항(focus)이다. M1은 동시 위약 그룹(concurrent placebo group)이 없기 때문에 NI(비열등성) 연구에서 직접적으로 측정할 수 없다.
이것은 가급적이면 위약-대조 시험에서 활성 대조의 과거 성과(past performance)를 기반으로 하여 추정한 후 현재의 시험 환경과 과거 시험 조건의 비교를 기반으로 하여 NI(비열등성) 연구에도 활성 대조 효과가 유지된다고 가정한 후 추정되어야 한다 (III.D 절 참조).
마진 M1의 선택은 중요한 실질적 결과(practical consequences)를 가져온다. 마진이 작을수록, C-T에 대한 95% 신뢰구간의 상한이 낮아지게 되며 비열등성을 설정하기 위해 필요한 표본 크기는 커져야 한다. C-T의 95% CI의 상한이 M1 미만이라는 것을 보여줌으로써 시험 약물이 어느 정도의 효과를 지닌다는 것(즉, 효과 > 0)을 입증할 수 있다. 그러나 전술한 바와 같이 대상 마진(the margin of interest)은 보통 M1보다 더 작고 (따라서 대조 약물의 임상적 이익(clinical benefit)이 적절한 비율로 보존된다는 것을 보여줌), 이 경우 이것을 M2라고 한다. 이러한 예상의 근거가 아래의 III.C.4 절에 설명되어 있다.
B. 비열등성 설계의 사용 이유 Reasons for Using a Non-Inferiority Design
우월성 설계 대신 NI 활성 대조 연구 디자인을 활용하는 것에 대한 일반적인 이유는 윤리적인 이유이다.
특히 시험에서 연구되는 질환에 대해 환자가 이용 가능한 중요한 이익(benefit available to patients)(예: 생명을 살리거나(life-saving) 비가역적인 부상(irreversible injury)의 예방)을 제공해주는 효과적인 치료가 있기 때문에 위약, 무처치 대조군 또는 매우 낮은 용량의 활성 약물을 사용하는 것이 윤리적이지 않은 경우 이 설계를 선정한다.
위약 대조를 활용할 수 있는 지 여부는 이용 가능한 치료에 의해 제공되는 이익의 성격에 달려 있다. 국제조화회의 지침 E10: ‘임상 시험에서 대조 그룹 선정과 이와 연관된 문제’(ICH E10: Choice of Control Group and Related Issues in Clinical Trials)를 다음과 같이 명시한다.
연구 모집단(study population)에서 사망이나 비가역적 이환율(irreversible morbidity)과 같은 심각한 위해(serious harm)를 예방하기 위해 이용 가능한 치료가 알려져 있는 경우 일반적으로 위약 대조를 사용하는 것은 부적절하다.
그러나 표준 치료(standard therapy)가 너무 심각한 독성(toxicity)을 가지고 있어서 많은 환자가 이 치료를 받기를 거부하는 경우와 같이 간헐적인 예외적 상황(occasional exemption)은 있다. 심각한 위해가 없는 다른 경우에는 일반적으로 환자들이 결과적으로 불편함을 느낄지라도 위약-대조 시험에 참가하도록 환자에게 요청하는 것이 윤리적이라고 간주된다. 단, 환경은 강압적이지 않아야 하고(non-coercive) 환자들은 이용 가능한 치료와 치료 지연으로 인한 결과에 대해 충분히 고지 받아야 한다 (ICH E10; 13-14페이지).
이러한 윤리적인 이유 외에도, 치료들을 비교하거나 어세이 민감도를 평가하기 위해 가능하다면 위약 대조와 연계하여 활성 대조를 포함해야 하는 그 외 이유가 있을 수 있다 (III.D 절 참조).
Caregivers, 제3의 납부자(third party payers) 및 몇몇 규제당국(regulatory authorities)은 치료법들의 비교적 유효성(comparative effectiveness)을 강조해 왔으며, 그로 인해 두 치료법들을 비교하는 연구가 많아졌다. 이러한 연구는 비교적 유효성 주장을 위한 임상적 근거(clinical basis)에 대한 정보를 제공하며, 이는 치료의 비용 유효성(cost effectiveness)을 평가하는데 유용할 수 있다. 활성 비교자(active comparator)에 위약 그룹이 포함되는 경우 그 연구가 상당한 차이(differed substantially)가 있는 치료를 구분할 수 있었는지(예: 활성 약물 대 위약)를 판단하는 것이 가능해진다. 이러한 비교적 유효성 연구는 NI(비열등성) 연구와는 반드시 구분되어야 하며, 이는 이 문서의 주요 중점사항이다.
‘비열등’(noninferior)이라는 단어는 특별한 의미로 여기에서 사용된다. 이 문서에 나와 있는 방법은 비열등성을 보이는 새 치료가 효과 있다는 것(이것이 활성 비교자만큼 효과 있다는 것이 아님)을 입증함을 목적으로 한다. 새 치료는 활성 비교자만큼 효과 있다거나 아니면 거의 동일하다는 결론을 정당화하지 않고 (위약보다 우월한) 유효성 기준(standard of effectiveness)을 충족할 수도 있다.
C. 비열등성 마진 The Non-Inferiority Margin
전술한 바와 같이 NI(비열등성) 연구는 시험 약물(T)이 활성 대조 약물(C)보다 열등한 양(C-T)이 사전에 지정된 NI(비열등성) 마진(M)보다 더 적다는 것을 입증하고자 한다. M은 NI(비열등성) 연구에서 활성 대조 약물의 추정되는 전체 효과(presumed entire effect)보다 클 수 없으며, 전체 활성 대조 약물의 효과를 기반으로 한 마진은 일반적으로 M1이라고 불린다.
M1은 (위약 그룹 없이) NI(비열등성) 시험에서 측정되는 것이 아니라 활성 대조 약물의 과거 성과를 기반으로 하여 추정된다는 것을 유념해야 한다. NI(비열등성) 연구의 품질(quality of the NI study)에 대한 평가 및 이전 연구의 효과와 현재 NI(비열등성) 연구의 특성에 대한 철저한 비교를 기반으로 효과(effect)가 현재 연구에 존재한다고 가정된다. NI(비열등성) 연구를 통한 결론의 타당성(validity)은 M1의 선정 및 현재의 NI(비열등성) 연구와 이것과의 관련성에 달려 있다.
예를 들면, NI(비열등성) 마진이 10으로 선정되고 연구가 T의 유효성을 입증하는 것처럼 보이면서 10의 차이(하지만 그보다 더 적은 차이는 아님)를 실제로 배제하지만 이 연구에서 C의 진짜 효과가 실제로는 10 이하인 경우, 그 연구가 비열등성을 입증했다는 결론은 부정확했을 것이다. 따라서 이러한 효과가 시험에서 발생했다는 합당한 보증(assurance) (즉, 어세이 민감도가 존재함(the presence of assay sensitivity))과 더불어 M1의 선정은 NI(비열등성) 연구에서 의미 있는 정확한 해답을 얻는데 있어서 매우 중요하다.
위약 그룹이 없는 경우 어세이 민감도를 결코 입증할 수 없기 때문에 어세이 민감도에 대한 과거 증거(historical evidence)가 필수적이지만 활성 대조 약물이 NI(비열등성) 연구에서 추정된 효과(presumed effect)를 가질 수 있도록 조치(measures)를 취해야 한다 (III.A.5 절 참조). 이러한 것은 NI(비열등성) 마진의 세심한 선정과 더불어 유효하고 해석 가능한 결과의 가능성(likelihood)을 높여줄 것이다.
연구에서 활성 대조 약물의 실제 치료 효과보다 더 큰 마진을 선택한 결과로 신약이 효과 있다는 거짓 결론(바람직하지 않은 결과임(undesirable public health outcome))일 수 있기 때문에 마진의 선정뿐만 아니라 그러한 마진 이상으로 나와 활성 대조 약물보다 시험 약물의 열등성 정도(degree of inferiority)를 배제하기 위해 사용되는 통계 분석에서 매우 보수적인 경향이 있다.
이러한 것은 일반적으로 NI(비열등성) 시험에서 C-T에 대한 95% 양측 신뢰구간의 상한이 M1보다 더 작도록 함으로써 이룰 수 있다. 이러한 구간의 활용은 전술한 NI 가설을 검정할 때 0.025의 단측 검정 크기(알파 레벨(alpha level))에 상응한다.
그러나 C-T에 대한 신뢰 구간의 상한은 우월성 시험에서 위약 대비 약물의 효과에 대한 95% 신뢰구간의 하한이 유일하게 관련된 값이 아닌 것과 같이 유일한 관심 측정치(measurement of interest)가 아니다. 치료 효과의 점추정치와 그 신뢰구간의 너비도 또한 관련 있는 값이다. 하지만 95% 신뢰구간의 상한은 보통 0.05의 양측 검정 크기(알파 레벨)가 전통적으로 우월성 시험에서 성공을 규정하는데 사용되는 기준인 것과 같이 NI(비열등성) 연구에서 시험 약물의 유효성을 판단하는 용도로 활용할 수 있다.
C-T에 대한 95% 신뢰구간 상한은 M1과 연계하여 시험 약물이 사실상 0이상의 효과를 가진다는(즉, 활성 대조 약물의 모든 효과 손실(loss of all the effect)을 배제함) 것을 타당하게 높은 수준으로 보증(assurance)하는 용도로 활용할 수 있다.
시험에 활용되는 NI(비열등성) 마진이 NI(비열등성) 연구에서 활성 대조 약물의 전체 가정되는 효과(entire assumed effect)(M1)보다 더 클 수는 없을지라도 NI(비열등성) 마진에 대해, M2라고 불리는 그보다 더 적은 값을 선택하는 것이 일반적이고 보통 바람직하다.
M1 대비 비열등함을 보이는 것은 시험 약물이 0 이상의 효과를 가졌다는 보증을 제공하기는 하지만 대부분의 경우 그러한 것만으로는 시험 약물이 임상적으로 허용할 수 있는 효과를 가졌다고 결론을 내리기에 충분하지 않다.
NI(비열등성) 연구를 수행하는 주요 이유가 위약 그룹을 포함시키는 것이 비윤리적이기 때문이라는 것을 유념하라. 활성 대조 약물은 유익한 효과를 가지며 위중한 질병(serious illness)이 있는 피험자에게 그러한 이익을 주지 않는 것은 비윤리적이다.
동일한 이유로 시험 약물이 그러한 활성 대조 약물의 효과 대부분을 잃는 것은 보통 수용할 수 없다. 따라서 NI(비열등성) 연구에서는 임상적으로 수용할 수 있는 가장 큰 효과 손실(the largest loss of effect)을 반영하는 보다 작은 마진(M2)을 선택하는 것이 일반적이다.
이러한 것은 (항생제 시험(antibiotic trials)에서 일반적인) 효과의 절대 차이(absolute difference in effect)로 설명할 수 있거나 아니면 (심혈관 결과 시험(cardiovascular outcome trials)에서 일반적인) 대조군이 제공하는 위험 감소(risk reduction)의 분율(fraction)로 설명할 수 있다. 시험 약물이 (예를 들면 안전성이나 2차 평가변수(endpoint)에 대해) 몇몇 중요한 이점을 가진 것으로 입증된 경우 M2에 대해 보다 큰 값이 임상적으로 정당화될 수도 있다는 것을 유념하라.
M2의 활용은 연방식품약물화장품법(the Federal Food, Drug, and Cosmetic Act)에 포함되지 않은 FDA “비교적 유효성”(comparative effectiveness) 기준을 나타낸다는 우려가 있어왔다. 1995년 4월에 법률에 따른 상대적 유효성의 역할을 설명할 때 클린턴 대통령(President Clinton)과 고어 부통령(Vice President Gore)은 다음과 같이 말했다.(“약물과 의료기기의 규제 재발명”, 국가성과검토의 일부(“Reinventing Regulation of Drugs and Medical Devices”, part of the National Performance Review)
"그러나 특정한 경우에 유효성이 더 적은 것(less effectiveness)이 환자나 공공(the public)에게 위험할 수 있을 때 신제품이 이용 가능한 대체 치료법(alternative therapies)보다 덜 효과적인지를 고려하는 것이 중요할 수도 있다.
예를 들면, 새로운 치료가 다음과 같을 때 이미 시판 승인된 대체치료만큼 효과적인지는 public health protection를 위해 매우 중요하다.
The reinvention statement는 FDA의 정책부국장(FDA’S Deputy Commissioner for Policy)인 William Schultz에 의해 FDA의 입장으로 1995년 8월 1일 관보(Federal Register of August 1, 1995(60 FR 39180, 39181))에 게재되었다.
M의 이러한 2가지 버전을 설명하기 위해 사용되는 정의는 다음과 같다.
M1은 활성 대조 약물에 대한 과거 경험(historical experience)을 기반으로 하여 추정할 수 있다.
현재 NI(비열등성) 시험에 대한 이것의 관련성(relevance)은 다음 사항을 기반으로 한다.
차이(즉, 우월성)를 입증하고자 하는 시험에서, 두 번째 요소의 치료 간 차이의 이러한 축소(diminution)는 “0(null)으로 향하는 편향”이지만 비열등성 시험의 경우 이것은 “대안으로 향하는 편향(bias toward the alternative”(즉, 비열등성)이라는 것을 유념하라. 이러한 두 번째 요소 때문에 몇몇 경우 M1이 미리 지정되어 있을 지라도 “할인(discount)”되어야 하지만(즉, 그보다 더 작은 값을 사용함) 필요한 할인양(amount of discounting)은 NI(비열등성) 연구가 완료될 때까지 알지 못할 수도 있다.
M2의 선정은 임상적 판단(clinical judgement)의 문제이긴 하지만 M2는 활성 대조 약물의 효과가 미미한 경우에도 M1보다 결코 더 클 수 없으며 임상적 판단은 그보다 더 큰 차이가 임상적으로 중요하지 않다고 주장할 수도 있다.
임상적 판단이 합리적일지라도 NI(비열등성) 마진으로서 M1보다 더 큰 M2를 선정하는 것은 시험 약물이 효과가 있다는 결론을 허용하지 않는다.
앞에서 설명한 바와 같이 M1보다 더 큰 활성 대조 약물과 시험 약물 간 차이를 배제하는 것은 유효성 결론을 뒷받침하는 중요한 결과이다. 이 분석은 매우 엄격한 접근이 필요하다.
즉, M1보다 더 큰 차이(C-T)는 높은 수준의 통계적 보증(statistical assurance)으로 배제시킬 필요가 있다. M2는 임상적 판단을 의미하기 때문에 상한이 여전히 M1보다 훨씬 더 적은 한 M2보다 약간 더 큰 C-T에 대한 95% 상한을 해석할 때 더 큰 유연성(flexibility)이 있을 수 있다 (Figure 3 참조).
D. 어세이 민감도 Assay Sensitivity
어세이 민감도(Assay sensitivity)는 NI 임상 시험의 필수 속성(essential property)이다.
어세이 민감도는 시험에서 지정된 크기(specified size)의 치료들 간 차이를 탐지할 그 시험의 능력이다. 달리 표현하자면, 어세이 민감도는 위약이 연구에 포함되었더라면 최소 M1의 대조 약물-위약 차이가 있었을 것이라는 것을 의미한다.
앞에서 설명한 바와 같이 M1 선정과 시험이 어세이 민감도를 가진다는 결론(즉, 활성 대조 약물이 최소 M1의 효과를 가졌을 것이다)은 3가지 고려사항을 기반으로 한다.
1. 약물 효과에 대한 민감도의 역사적 증거 (HESDE) Historical Evidence of Sensitivity to Drug Effects (HESDE)
HESDE는 적합하게 설계되어 과거에 시험을 수행했으며 특정한 활성 치료법(specific active treatment)(일반적으로 새로운 NI(비열등성) 연구에서 사용되는 것 또는 몇몇 경우에는 하나 이상의 약학적으로 밀접하게 관련된 약물)를 활용했던 선행 연구(prior studies)가 위약 (또는 그 외 어떤 치료)보다 이 치료가 우수하다는 것을 정기적으로 입증했다는 것을 의미한다.
과거 연구에서의 연구결과가 일관되면 위약 대비 약물 효과에 대한 신뢰할 수 있는 추정(reliable estimate)을 가능하게 한다. 효과 규모의 추정(the estimate of the size of the effect)은 반드시 과거 결과의 가변성(variability)을 고려해야 하며, 어떤 임상시험에서 나타난 가장 큰 효과(the largest effect)나 모든 적절한 시험들의 메타 분석에서의 점추정치(point estimate) 조차도 확실히 재현될 것이라고 가정해서는 안 된다. 역사적 데이터 분석은 IV 절에서 추가로 논의할 것이다.
HESDE는 수많은 대증요법(symptomatic treatments)(우울증, 초조, 불면증, 협심증, 증상적 심부전, 과민성 장질환 증상 및 통증에 대한 치료)에 대해선 측정을 할 수가 없다. 왜냐하면 그러한 증상에 맞게 잘 설계되어 실시된 연구조차도 위약과 유효한 약물(effective drug)을 구분하지 못하는 경우가 많기 때문이다.
이 경우 활성 대조 약물이 어떤 해당 NI(비열등성) 연구에서 위약(하나인 경우)보다 우월함을 입증했다고 가정할 수 없기 때문에 이러한 적응증(indications)에 대한 약물의 NI(비열등성) 연구는 무의미(non-informative)할 수 있다. 또한 이러한 문제는 결과 연구(outcome studies)에서 유효성에 대한 평가에 부정적으로 영향을 미칠 수도 있다.
예를 들면, 아스피린의 경우 가장 큰 규모의 위약-대조 시험(AMIS, 아스피린 심근경색증 연구(the Aspirin Myocardial Infarction Study); 예시 2 참조)은 그 외 모든 시험이 아스피린에 우호적인 결과가 나왔을 지라도 아스피린의 효과를 입증하지 못했다. 유사하게, 30개 이상의 경색 후(post-infarction) 베타 블로커(beta-blocker) 시험에서 미미한 수의 시험들만이 생존이나 그 외 심혈관적 이익(survival or other cardiovascular benefit)을 유의하게 향상시켰다는 것이 입증되었다.
2. 역사적 연구와 현재 NI(비열등성) 시험의 유사성 및 “일관성 가정”에 대한 이것의 관계 Similarity of the Current NI Trial to the Historical Studies and Its Relationship to the "Constancy Assumption"
HESDE가 활성 대조 약물의 효과(이것은 이후 새로운 NI(비열등성) 연구를 위해 M1을 선정하는 근거로서 역할을 할 것이다)를 추정하는 용도로 활용할 수 있다는 결론은 NI(비열등성) 연구가 중요한 모든 연구 디자인과 관련하여 과거 연구와 충분히 유사하며 활성 대조 약물 효과에 영향 미칠 수 있는 특성(features)을 수행한다고 결론 짓는 것이 적합한 경우에만 이끌어낼 수 있다. 이러한 결론을 “일관성 가정”(“constancy assumption”)이라고 한다. 설계 특징(the design features of interest)은 다음과 같다.
예를 들면 심부전 사망률(heart failure mortality)에 대한 엔지오텐신전환효소(ACE) 억제제(angiotensin-converting enzyme(ACE) inhibitor)의 효과는 HESDE를 설정하면서 약물을 이뇨제와 (종종) 디곡신(digoxin)에 추가한 연구에서 반복적으로 입증되었지만, 이러한 연구가 수행된 이후로 치료법의 진전(evolution)은 ACE 억제제의 현재 효과(present-day effect)에 대한 우리의 이해에 관해 의문을 불러온다.
이러한 연구가 이루어진 시점 이후로, 그 외 약물치료(베타 블로커(beta blockers), 스피로노락톤(spironolactone))가 표준으로 사용되었다. 우리는 이러한 2가지 등급의 약물을 포함한 요법(regimen)에 ACE 억제제를 추가할 때 과거의 효과가 여전히 있을지 여부에 대해 알지 못한다. 유사하게, 심부전 사망률에 대한 혈전용해제(thrombolytic)의 효과는 증상 이후 얼마나 빨리 약물이 투여되는지, 항응고제(anticoagulants)와 혈소판억제제(platelet inhibitors)의 병행 사용 그리고 지질저하 약물(lipid-lowering drugs)의 사용에 의해 좌우될 수 있다.
M1 선정에 대한 탄탄한 근거(sound basis)를 제공하기 위해 역사적 연구와 새로운 NI(비열등성) 연구는 중요한 모든 면에서 최대한 거의 동일해야 한다. 역사적 시험에서의 평가변수가 새 시험에서의 평가변수와 유사하고 평가도 유사하게 이루어졌을 것이라는 합당한 보증을 제공하는 것은 평가변수가 표준화되고 객관적일 때 더욱 용이하다. 활성 대조 약물의 효과는 단일 평가변수(예: 사망률)에 대한 것이나 아니면 합성 평가변수(composite)(예: 사망, 심장마비, 뇌졸중)에 대한 것일 수 있지만 (다시 말하자면) 이러한 것에 대한 측정과 평가는 시간이 흐른 뒤에도 합리적 수준에서 일관성을 지녀야 한다.
NI(비열등성) 연구에서 사용되는 평가변수는 NI(비열등성) 연구에서 사용되는 새로운 평가변수에 대한 활성 대조 약물의 효과의 규모(size of the effect)를 추정하기 위해 역사적 연구의 데이터가 이용 가능한 경우 반드시 활성 대조 약물의 원래 시험(original trials)에서 사용된 것일 필요는 없다. 예를 들면 역사적 연구에서 사망률 평가변수(mortality endpoint)를 사용했을지라도 고품질 데이터를 확보할 수 있다면 그 연구를 활용하여 사망 + 입원의 평가변수에 대한 효과 규모를 계산할 수 있다 (단, 입원을 야기하는 상황이 역사적 연구와 NI(비열등성) 연구에서 유사했다는 것을 확신할 수 있어야 한다).
그러나 가장 큰 역사적 효과를 찾기 위해 평가변수들의 범위(range of endpoints)를 검색하는 것은 수용할 수 없다는 것을 유념하라. 이 경우 NI(비열등성) 연구에서 예상되는 효과의 과다추정(overestimate)이 발생할 수 있다.
일반적으로 질병 정의와 치료에 관해 시간이 지남에 따라 상당한 진전이 있는 경우 또는 역사적 시험에 사용된 방법론이 구식으로 되어버린 경우 일관성 가정은 지지할 수 없기 때문에 NI 설계 사용을 정당화할 수 없다.
NI(비열등성) 연구는 역사적 연구와 대부분 측면에서 유사하게 설계할 수 있을지라도 NI(비열등성) 연구가 완료되고 연구 인구와 반응의 다양한 특성에 대한 평가가 이루어질 때까지 그러한 유사성을 완벽하게 평가하는 것은 불가능할 수 있다.
환자 특성(예: 연령, 성, 위중도(severity))과 관련한 활성 대조 약물 치료 효과의 이질성(heterogeneity)을 알고 있으며 그러한 이질성을 정량화할 수 있는 경우 역사적 연구와 NI(비열등성) 연구에서의 환자 특성의 혼합(mix)이 크게 다르다면 NI(비열등성) 연구에서 활성 대조 약물 효과의 규모 추정을 조절해야 할 수도 있다.
치료 효과의 일관성 속성(the property of constancy)은 치료 효과를 표시하기 위해 어떤 계측법(metric)을 선정하느냐에 따라 달라질 수 있다. 이러한 문제는 IV.B.2.c 절에 심도 깊게 논의되어 있다. 경험에 따르면 결과 사건의 배경율(background rates of outcome events)이 연구 모집단 간 다른 경우 위험비(hazard ratio)이나 상대 위험도(relative risk)와 같은 계측법이 인구에서의 사건율(event rates) 변화에 더 민감한 절대 위험도 차이(absolute risk difference)와 같은 계측법보다 더 안정적일 수 있다.
3. 우수한 연구 품질 Good Study Quality
품질이 불량한 연구 수행은 항상 피해야 하지만 NI(비열등성) 연구의 경우 엉성한 연구 디자인/수행은 비열등성의 대립 가설 쪽으로 편향을 유도하기 때문에 특히 문제가 된다 (추가 논의는 IV.F 절과 ICH E10; 11-12페이지를 참조).
부정확하거나 불량하게 구현된 선정 기준(entry criteria), 낮은 순응도(poor compliance), 연구 대상 약물과 효과가 중첩될 수도 있는 병행 치료(concomitant treatments)의 사용, 부적절한 측정 기술(measurement techniques), 할당된 치료 전달을 못한 오류, 높은 탈락률(high attrition) 또는 추적조사가 잘 이루어지지 않은 것(poor follow-up)과 같은 결함은 연구에서 관측되는 차이 C-T를 줄일 수 있으며, 그로 인해 잠재적으로 비열등성하다는 그릇된 결론(false conclusion of non-inferiority)에 이를 수 있다.
또한 환자가 치료를 받지 않을지라도 환자가 무작위 배정되었던 치료법에 따라 모든 환자를 분석한다는 원칙을 고수하는 ITT (intent-to-treat) 접근법은 (우월성 시험에서 보수적일지라도) NI(비열등성) 시험에서는 반드시 보수적이지는 않으며 비열등하다는 부정확한 연구결과를 초래할 수 있다는 것을 유념해야 한다.
우월성 시험에서는 엉성함(sloppiness)으로 인해 연구 실패(study failure)가 발생할 수 있다. 반면 NI(비열등성) 시험에서의 불량한 품질(poor quality)은 때때로 부정확한, 비열등성이 명백하다는 결과를 야기할 수 있다. 따라서 NI(비열등성) 연구를 계획하고 수행할 때에는 품질에 각별한 주의를 기울여야 한다. 사건(fact) 이후 불량한 품질에 대한 보정(adjustment)은 보통 불가능하다.
E. 통계적 추론 Statistical Inference
NI(비열등성) 마진을 계산하고 NI(비열등성) 연구를 분석하는 것에 관한 다양한 접근법이 IV 절에 상세히 논의되어 있다.
보편적으로 사용되는 고정 마진법(fixed margin method)은 일반적으로 95%-95%법(95%-95% method)이라고 부른다.
처음 95%는 효과를 입증한 역사적 연구를 기반으로 한 대조 약물의 추정 효과(estimated effect)에 대한 신뢰구간(confidence interval)을 의미하며, 두 번째 95%는 NI(비열등성) 연구에서 귀무가설을 검정할 용도로 사용하는 신뢰구간을 의미한다.
여기에서 논의되는 처음 95% 신뢰 하한은 역사적 연구에서 활성 비교자(active comparator)의 평균 효과에 대한 경계(bound for the average effect)이거나 아니면 일관성 가정이 유지될 경우 NI(비열등성) 연구에서의 진짜 효과(the true effect)라는 것을 유념하라.
때때로 이것이 NI(비열등성) 연구에서 비교자(the comparator)의 실제 효과(actual effect)에 대한 하한이며, 초안 지침(draft guidance)(2010년에 발간됨)에서도 이러한 것을 제시하지만, 이것이 옳지 않다.
95% 하한(the 95% lower bound)은 진짜 대조약물 효과(true control effect)에 대한 하한을 규정하지만 NI(비열등성) 연구에서의 실제 효과(actual effect)는 여전히 샘플링 변동(sampling variation)일 가능성이 있다.
실제 효과를 경계 짓기 위해서는, 다른 유형의 구간이 필요하다. ‘예측 구간’(prediction intervals)이라고 알려져 있는 이 구간은 상응하는 신뢰구간(corresponding confidence intervals)보다 훨씬 더 넓다. 그러나 신뢰구간만으로도 현재 목적에 충분하다.
왜냐하면 역사적 연구의 신뢰구간은 위약과 비교된 비교자의 진짜 효과(true effect)를 경계 지으며 NI(비열등성) 연구의 신뢰구간은 비교자와 비교하여 시험 약물의 진짜 효과를 경계 짓기 때문이다. 항상 일관성 가정에 의존하면서, 이러한 것들을 조합하여 위약 대비 시험 약물의 긍정적 효과(positive effect)를 추론할 수 있다.
95%-95% 고정 마진 접근법(이 경우 마진에 대해 위험율(risk ratio)이 아니라 위험 차이(risk difference)를 사용함)은 급성심근경색(acute myocardial infarction, AMI) 치료용 새 혈전용해제(레테플라제)(thrombolytic product, reteplase)에 대한 FDA의 평가를 통해 설명할 수 있다.
NI(비열등성) 마진을 계산하기 위해 적합한 메타분석법을 활용하여 NI(비열등성) 연구에 대한 활성 비교자(대조)인 스트렙토키나제(streptokinase)에 대한 이용 가능한 모든 위약-대조 시험 결과를 모았다. 모아진 결과(pooled results)에서 생존에 대한 효과(effect on survival)의 점추정치(point estimate)인 사망률(mortality rates) 차이에 대한 절대값 2.6%에 95% 신뢰 하한은 2.1%(즉, M1)이었다.
새 혈전용해제는 수용 가능한 대안(an acceptable alternative)으로 간주되려면 스트렙토키나제의 이익 절반 이상의 손실을 배제해야 한다는 임상적 결론(clinical decision)이 내려졌다. 따라서 NI(비열등성) 연구에서 스트렙토키나제로 치료한 환자와 비교하여 레테플라제로 치료한 환자에서 사망률의 절대치의 1.05% 증가(즉, M2)를 배제해야 했다. 이 연구에 대한 NI 분석은 사망률 차이의 95% 신뢰구간(이 특정 경우 단측(one-sided))이 1.05% 증가를 배제했다는 것을 입증하기 위한 것이었다. INJECT 연구는 이를 달성했으며 이 제품은 시판 승인을 받았다.
고정 마진 접근법의 대안은 양 데이터원(both data sources)의 가변성(variability)을 반영하여 역사적 시험과 현재 NI(비열등성) 시험의 데이터를 조합하거나 합성(combines or synthesizes)하기 때문에 합성 접근법(synthesis approach)이라고 알려져 있다. 95%-95%법은 다른 식으로 개발되었을지라도 합성법과 수학적으로는 동등하다(mathematically equivalent)라고 볼 수 있지만 아래 식으로 추정되는 위약 대비 시험 약물 효과의 표준오차(standard error)를 지니며 SEH + SEN
여기서 SEH와 SEN은 역사적 연구와 NI(비열등성) 연구의 각 표준오차이며 합성법의 표준오차인 아래 식으로 추정하지 않는다.
첫 번째 공식은 항상 두 번째 공식보다 표준 오차가 더 크다. 따라서 합성법에 비해 95%-95%법은 보수적이다.
양 방법은 모두 역사적 연구와 NI(비열등성) 연구 간 (평균적으로) 대조 약물의 변함없는 효과(constant effect)에 대한 가정을 활용한다. 95%-95%법의 활용은 M1(대조의 전체 효과)의 손실이 배제되었는지를 평가하기 위해 바람직한 특징인 이러한 가정으로부터 가능한 이탈(deviation)에 대한 허용치라고 볼 수도 있다. 합성법의 활용은 일관성 가정의 세심한 정당화(careful justification) 및 (적합한 경우) 이로부터의 이탈에 대한 명시적 허용치와 함께 M2보다 더 큰 효과의 손실(loss of effect)이 배제되었는지를 판정하는 용도로 권장할 수 있다 (세부 사항은 IV.C 절과 예시 1(B)를 참조).
F. 규제적 결론 Regulatory Conclusions
성공적인 NI(비열등성) 연구는 잘 선정된 M1이 (위약 그룹이 있었더라면 위약 대비) 대조 그룹이 실제로 가졌던 효과를 반영하는 한, 시험 약물이 M1의 NI(비열등성) 마진을 배제한다면 0보다 더 큰 효과를 가진다는 것을 엄격하게 입증한다. 또한 NI(비열등성) 연구는 사용되는 M2에 따라 시험 약물이 대조 약물 효과의 어떤 비율(some fraction)보다 더 큰 효과를 가졌다는 것을 입증하는 용도로 활용할 수도 있다.
그러나 성공적인 NI(비열등성) 연구가 시험 약물의 유효성을 지지할지라도 약물이 활성 대조 약물과 “등등”하거나 “유사”하다(“equivalent” or “similar”)는 결론(이러한 경우에는 잘 규정되어 있지 않은 개념)을 지지하는 경우는 아주 드물다는 것을 유념하라.
유의성 검정(significance testing)을 기반으로 한 유효성의 엄격한 입증 외에도 시험은 약물의 유효성을 뒷받침하는 위약-대조 시험이 그러하듯이 추가 정보를 제공한다는 점을 유념해야 한다. 약물 효과의 점추정치와 그 신뢰구간은 시험 약물과 대조 약물 간 차이가 얼마나 클 수 있는지에 대한 정보를 제공해준다.
전술한 바와 같이 성공적인 NI(비열등성) 연구는 대개는 시험 약물이 활성 대조 약물과 동등하거나 유사하다는 결론을 뒷받침하기에 충분하지 않을 것이다.
이 문서에 논의되어 있는 방법은 (특히 마진 선정과 관련하여) 동등성이나 유사성(equivalence or similarity)을 입증하는 것이 아니라 시험 약물이 효과 있는지 만을 입증함을 목적으로 한다. 그러나 활성 대조 약물 대비 시험 약물의 효과에 대한 신뢰구간의 하한이 약간만 음(-)이었다면 유사성이 입증되었다는 판단을 할 수 있었을 것이다. 만약 연구가 동등성을 뒷받침함을 목적으로 하는 경우 신뢰 구간을 판단하는 비교 대상인 마진이 사전에 정당화되어야 하고 마진은 보통 M2보다 더 적을 것이다.
G. 대체 설계 Alternative Designs
ICH E10은 NI(비열등성) 마진 설정에 있어서 어려움이나 불확실성(uncertainty)이 있는 경우 또는 NI(비열등성) 마진이 너무 작아서 NI(비열등성) 연구 표본 크기가 불가능할 정도로 커져야 하는 경우 NI 설계보다 더 나을 수도 있는 광범위하게 다양한 연구 디자인을 제시하고 있다.
1. 추가(add-on) 연구 Add-on Study
대부분의 경우 약학적으로 새로운 치료에 관해 가장 흥미로운 질문은 이것이 단독으로 효과 있느냐 하는 것이 아니라 신약이 이미 이용 가능한 치료의 유효성을 더할 수 있느냐 하는 것이다. 따라서 가장 타당한 연구는 새로운 물질과 위약의 비교이다 (각각은 설정되어 있는 치료에 추가됨). 이에, 심부전(heart failure)에 대한 새로운 치료는 이뇨제(diuretics)와 디곡신(digoxin)에 새 물질(예: ACE 억제제, 베타 블로커 및 스피로노락톤(ACE inhibitors, beta blockers, and spironolactone))을 추가했다. 각각의 새 물질이 설정됨에 따라 이것은 새 물질과 위약이 추가된 배경 치료(background therapy)의 일부가 되었다. 또한 이러한 접근법은 종양학(oncology), 발작질환 치료(treatment of seizure disorders) 그리고 대부분의 경우 AIDS 치료에서 일반적이다.
2. 위약-대조 시험이 가능한, 가용 치료로부터 이익을 얻는 것으로 알려지지 않은 인구 파악 Identifying a Population Not Known to Benefit From Available Therapy in Which a Placebo-Controlled Trial Is Acceptable
수많은 결과 연구 환경(outcome study settings)에서 몇몇 임상적 환경(예: 중증 질환(severe disease))에 대해서만 유효성이 정립되었다.
따라서 위약-대조 시험에서 덜 위중한(less severely ill) 환자를 연구하는 것이 가능할 수 있다.
심바스타틴(simvastatin)이 고콜레스테롤성 경색 후(hypercholesterolemic post-infarction) 환자(4S)에게 효과 있었다는 입증은 (예를 들면) 고콜레스테롤성 비경색 환자(WOSCOPS) 또는 덜한 정도의 고콜레스테롤혈증 환자(TEXCAPS)를 대상으로 한 스타틴의 연구를 배제하지 않았다. 이러한 접근법은 새 연구 모집단(new study population)에서 치료가 가치 있는지에 관한 불확실성이 있는 한 적합하다.
또한 효과 있는 것으로 알려진 치료를 견딜 수 없는 환자를 연구하는 것이 가능할 수도 있다.
예를 들면 ACE 억제제 불내성(intolerant)인 심부전 환자를 대상으로 한 위약-대조 시험에서 안지오텐신 수용체 블로커(angiotensin receptor blockers)를 연구하는 것이 가능했지만 심부전 환자의 보다 보편적인 인구에게 ACE 억제제를 투여하지 않는(deny) 것은 가능하지 않았을 것이다. 왜냐하면 ACE 억제제가 일반적 심부전 인구에게 있어서 생존을 개선시킨다는 것은 이미 확립되었기 때문이다.
3. 조기 탈출, 구조 치료, 무작위 추출 철회 Early Escape, Rescue Treatment, Randomized Withdrawal
증상적 질환(symptomatic conditions)에서는 유효한 치료가 있는 경우 장기간 사람들을 위약 그룹에 남겨두기를 꺼려할 수도 있다.
특정 시간까지 반응을 보이지 않는 환자를 위해 조기 탈출/구조 수단(early escape/rescue)을 통합하거나 아니면 불안정한 협심증, 대발작 또는 발작성 상심실성 빈맥(unstable angina, grand mal seizure, or paroxysmal supra-ventricular tachycardia)과 같은 최초 증상 재발 시 환자를 시험에서 종료시키는 설계를 활용할 수 있다. 시간 경과에 따른 효과의 지속성(the persistence of effects)을 평가하기 위해, 장기적 위약-대조 시험을 진행하는 것이 어려운 경우 무작위 추출 철회 연구(randomized withdrawal study)를 활용할 수 있다.
이러한 연구의 경우 성공적으로 약물 치료를 받은 환자를 위약에 무작위 배정하거나 약물 치료를 지속한다. 증상이 되돌아오는 즉시 그 환자가 평가변수(endpoint)를 지닌 것으로 간주한다.
H. 필요한 연구 수 Numbers of Studies Needed
보통 1997 FDA 현대화법(현대화법)에서 허용되는 예외를 두고서, FDA는 유효성을 지원하는 하나 이상의 대조가 잘 이루어진 적합한 연구가 있을 것으로 예상한다. 현대화법은 몇몇 경우 하나의 연구 + 확정적 증거가 실질적 증거로서 역할을 하도록 허용하며, FDA는 언제 단일 연구가 충분할 수 있는지를 논의하는 지침을 발행했다.
단일의 역사적 연구에 대한 의존성이나 가변성 때문에 역사적 치료 효과 (그로 인한 M1)의 규모에 대한 불확실성이 있는 경우 보통 유효성을 지원하기 위해서는 하나 이상의 NI(비열등성) 연구가 필요하다.
연구가 비교적 중간 정도 규모인 경우 보통 필요하다고 보이는 경우 하나 이상의 NI(비열등성) 시험을 진행하는데 있어서 장애물은 없다. 그러나 (적합한 통계력을 가지기에) 너무 큰 2개 시험을 진행하는 것은 타당하지 않으며 단일 시험을 설득력 있게 만드는 것을 고려해볼 필요가 있다. 일반적으로 2가지 고려가 그렇게 할 수 있다.
즉, (1) 다른 관련 정보의 가용성 및 (2) 통계적으로 설득력 있는 결과.
1. 그 외 관련 정보 Other Relevant Information
NI(비열등성) 시험에서는 일반적으로 시험 약물이 약학적으로 활성 대조 약물과 유사하다 (즉, 이것이 약학적으로 유사하지 않았다면 추가 연구는 보통 보다 설득적이고 실용적이었을 것이다).
이 경우 유사한 성능의 기대(하지만 여전히 시험을 통한 확인이 필요함)는 단일 시험을 수용할 수 있게 하며, 또한 아마도 NI(비열등성) 마진을 선정하는데 있어서 덜 보수적인 선택을 할 수 있게 한다.
다른 유형의 데이터를 구할 수 있는 경우 유사한 결론에 도달할 수 있다. 예를 들면:
2. 통계적으로 설득력 있는 결과 Statistically Persuasive Result
NI(비열등성) 시험을 통계적으로 설득력 있는 것으로 간주할 수 있다는 결론은 양측 95% 신뢰구간을 가지고 배제된 마진 또는 NI(비열등성) 연구결과의 내적 일관성을 기반으로 할 수 있다. 2개의 관심 마진(M1과 M2)이 있다는 것을 인정해야 한다.
NI(비열등성) 연구에서, 임상적으로 정해진 마진 M2는 M1보다 더 적으며(종종 상당히 더 적음), 이러한 것은 시험 약물이 효과가 있는지를 정하는 용도로 활용할 수 있다.
예를 들면 M2는 M1의 40%가 되도록 선정할 수 있다.
이러한 M2 기준을 충족함으로써 대조 효과의 40% 손실을 배제하면서 단일 NI(비열등성) 연구는 시험 약물이 대조 치료 효과의 임상적으로 충분한 분수(60% 이상)를 보존한다는 합리적인 보증을 제공한다. 동시에 이것은 시험 약물이 0보다 더 큰 효과를 지닌다는 강력한 보증도 제공한다. 그러한 경우 단일 시험은 보통 승인을 위한 충분한 근거가 된다. 효과의 보존이 특히 중요한 경우 물론, 하나 이상 연구에서 M2 손실이 배제되었다는 것을 입증하는 것이 필요하다고 볼 수도 있다.
몇몇 경우 NI(비열등성) 연구로 기획된 연구는 활성 대조 약물보다 우월함을 보여줄 수 있다. ICH E9: ‘임상 시험에 관한 통계 원칙’(ICH E9)에서의 권고와 FDA 정책은 다양성에 대한 조정 없이도 NI(비열등성) 연구에서 발생하는 이러한 우월성 연구결과를 해석할 수 있게 해주었다. 활성 약물 대비 우월함을 입증하는 것은 위약 대비 우월함을 입증하는 것보다 훨씬 더 어렵기 때문에 활성 대조 약물 대비 우월함을 입증하는 것이 시험 약물의 유효성에 대한 매우 설득력 있는 입증이다. 이와 같이 M2보다 훨씬 더 적은 C-T에 대한 95% 신뢰구간 상한이 있지만 우월함보다 더 적은 연구결과도 유효성을 입증하는데 있어서 통계적으로 설득력 있다.
I. 활성 대조 약물 선정 Choice of Active Control
활성 대조 약물은 잘 규정된 효과를 지닌 약물이어야 한다.
가장 명확한 선정은 NI(비열등성) 시험에 대해 추정되는 활성 대조 약물 효과를 규정하기 위해 역사적 위약-대조 시험을 구할 수 있는 단일 약물이다. 몇몇 약학적으로 유사한 약품이 있는 경우 조합된 분석을 활용하여 NI(비열등성) 마진을 선정할 수도 있으며, 그러한 경우 관련 약물의 어떠한 것을 NI(비열등성) 시험에서 활성 대조 약물로 볼 수 있다 (IV.B.2.b 절 참조).
IV. 비열등성 마진 선정 및 비열등성 가설 검정 Choosing the Non-Inferiority Margin and Testing the Non-Inferiority Hypothesis
A. 서론 Introduction
이 절에서는 마진 선정에 영향 미치는 것에 대해 특별히 강조하면서 NI(비열등성) 시험에서 작용하는 다양한 불확실성 원인을 논의한다.
또한 NI 가설에 대한 통계적 검정 선정도 자세히 논의한다. III 절에서 간략히 설명했듯이 NI(비열등성) 연구의 분석을 위한 2가지 상이한 접근법이 있다. 하나는 고정 마진법이라고 불리는 것이며, 다른 하나는 합성법이라고 불린다. 둘 모두는 역사적 연구와 NI(비열등성) 연구의 동일한 데이터를 사용하지만 그 데이터를 다른 식으로 활용한다.
고정 마진 또는 합성 접근법을 이용하여 NI 가설을 평가할 때 만들어지는 가정과 관련된 다수의 단계는 모두 NI(비열등성) 연구의 결과와 결론에 도입될 수 있는 잠재적 불확실성 원인이다. IV.B 절에서, 우리는 이러한 원인을 식별하고 NI(비열등성) 연구를 통해 거짓 결론을 도출할 수 있는 확률을 줄이고자 불확실성을 감안하는 접근법을 제시하려고 한다. IV.C 절은 비열등성을 평가하기 위한 통계적 분석법에 대한 추가 논의를 명시한다.
B. 활성 대조 약물 효과(M1)의 통계적 불확실성과 정량화 Statistical Uncertainties and Quantification of the Active Control Effect (M1)
1. NI(비열등성) 연구에서 불확실성의 원인은 무엇인가? What are the Sources of Uncertainty in an NI Study?
NI(비열등성) 연구의 해석은 3개의 연결된 중요 결론에 달려 있다. 즉,
3가지 정보원 모두는 불확실성을 갖고 있다. 첫 번째와 세 번째의 경우 불확실성은 주로 표준오차(합성법의 경우)와 신뢰구간(고정 마진법의 경우)으로 측정되는 통계적 성격을 가진다. 두 번째 결론은 주로 정량화할 수 없는 과학적 불확실성을 갖는다.
첫 번째 불확실성 원인은 과거 연구에서 활성 대조 약물의 효과에 대한 추정이다. 연구 대 연구 가변성에 관한 정보가 없기 때문에 위약 대비 활성 대조 약물의 단일 역사적 연구만이 있을 때; 다수 연구가 있지만 이것들 간 효과 규모 추정에 있어서 상당한 불일치가 있을 때;
그리고 몇몇 약학적으로 관련된 약물을 통해 얻은 데이터가 활성 대조 약물 효과에 대한 추정을 개발하기 위해 활용될 때 특정 문제가 발생한다. 이러한 3가지 잠재적 문제 모두는 M1을 선정할 때 고려할 필요가 있다.
두 번째 불확실성 원인은 통계에 기반한 것이 아니라 과거 연구를 통해 추정한 효과 규모가 현재 NI(비열등성) 연구에서의 활성 대조 약물 효과보다 더 클 수 있다는 우려로부터 나온다. 효과가 불변일 것이라고 가정하는 것은 종종 “일관성 가정”이라고 불린다.
가정이 부정확하고 현재 NI(비열등성) 연구에서의 효과 규모가 역사적 연구를 통해 추정한 효과보다 더 작은 경우 M1은 부정확하게(너무 크게) 선정되었을 것이고 NI를 입증하는 성공한 것처럼 보이는 연구는 잘못된 결과를 얻었을 수 있다.
일관성 부족은 부수적 의료 치료의 진전, 환자 인구에서의 차이 또는 연구 대상 평가변수에 대한 평가 변동을 비롯한 수많은 이유로 발생할 수 있다. IV.B.2.c 절에서 논의했듯이, 심혈관 결과 연구에서 치료 효과의 절대 차이는 위험 감소의 경우보다 대조 그룹에서 배경율에 더 민감하고 가변적일 확률이 높다는 견해를 지지하는 일부 경험이 있다. 따라서 위험 감소는 절대 효과보다 대조 약물 효과의 보다 일관성 있는 측정일 수 있다. 일관성에 대한 우려에 관해 NI(비열등성) 마진을 조절할 수 있는 방법은 불가피하게 판단의 영역이다.
세 번째 불확실성 원인은 NI(비열등성) 연구에서 NI 가설 시험 결과를 기반으로 한 거짓 결론을 내릴 수 있는 위험과 관련 있다
(즉, 실제론 그렇지 않음에도 C-T < M1이라는 결론). I형 오류 또는 위양성 (false positive) 결론 위험이라고 불리는 이 불확실성은 약물이 위약보다 더 효과적이라고 잘못 결론 내릴 수 있는 위약-대조 우월성 시험에서의 우려와 유사하다. 달리 얘기하자면 이것은 어떠한 가설 검정 상황에서도 존재한다.
NI 케이스의 경우 통계 검정은 대조와 시험 약물간 차이(C-T, 시험 약물 대비 대조의 우월함 정도)가 NI(비열등성) 마진보다 더 적다는 것을 확인하기 위함이다 (이러한 것이 의미하는 바는 대조 효과 일부가 보존되거나 (C-T < M1의 경우) 또는 충분한 양이 보존된다는 것(C-T < M2)이다).
일반적으로 제I형 오류는 C-T에 대한 95% 신뢰구간의 상한이 NI(비열등성) 마진보다 더 적도록 규정함으로써 0.025로 설정된다.
이러한 것은 위약-대조 시험에서 우월성의 일반적인 통계 검정과 거의 유사하다. 한 개의 NI(비열등성) 연구만을 실시할 예정인 경우 95% 이상(예: 99%)의 신뢰구간 상한을 계산하여 그 상한이 마진보다 더 적도록 요구함으로써 I형 오류의 확률을 더 적게 만들 수 있다. 이 접근법은 단일 위약-대조 시험(0.05 대신 0.01 – 0.001의 alpha에서 시험)의 경우 일반적으로 실시되는 것과 유사하다. 그러나 전술한 바와 같이 이러한 우려를 완화시켜주는 사전 정보가 있을 수 있으며, 예를 들면 약물과 활성 대조 약물이 약학적으로 유사한 경우 일반적인 제I형 오류 경계(0.025)에서의 단일 시험만으로도 충분하다고 볼 수 있다.
다음 하위절에서 우리는 처음 2개 불확실성 원인의 영향뿐만 아니라 가설 검정에 사용할 마진 선택에 대해 자세히 설명한다.
2. 활성 대조 약물 효과의 정량화 Quantification of the Active Control Effect
과거 대조식 연구는 활성 대조 약물의 치료 효과를 추정할 수 있는 실증적 데이터를 제공해준다. NI(비열등성) 연구에서 존재할 것으로 추정할 수 있는 대조 약물 효과를 측정하기 위한 근거가 될 그러한 치료 효과의 규모는 NI(비열등성) 연구를 실행하는 것이 타당한지 여부를 정하는데 있어서 매우 중요하다. 활성 대조 약물이 작은 치료 효과, 위약과 미미하게만 구분할 수 있는 효과 또는 일정하지 않은 효과를 가지는 경우 비열등성을 연구하도록 설계된 활성 대조 약물 연구는 매우 큰 표본 규모를 요구할 가능성이 높거나 아니면 전혀 실용적이 못할 수도 있다.
활성 대조 약물의 치료 효과 규모는 측정을 지원하기 위해 활용할 수 있는 설계가 유사한 별도 연구의 수와 데이터 양에 따라 몇 가지 방법으로 측정할 수 있다. 수많은 독립적인 역사적 연구를 확보하는 것은 일반적으로 1-2개만을 확보하는 것보다 더 유익하다. 왜냐하면 활성 대조 약물 효과의 추정이 더 정밀하고 불확실성에 덜 영향 받을 수 있으며, 또한 연구가 이루어지는 기간 이상 동안 효과의 일관성을 판단하는 것이 가능해지기 때문이다.
a. 단일 연구를 통해 HESDE 측정하기 Determining HESDE from a single study
유효성을 입증하는 용도로 NI 설계를 활용하는 가장 보편적인 경우는 활성 대조 약물이 주요 사건(예: 사망, 뇌졸중, 심장마비, 지속적인 감염 또는 종양 진전)의 위험을 줄이는 용도로 승인된 결과 연구와 관련 있다.
관련 조건이나 다양한 인구에서 또는 약학적으로 유사한 약물에 대해 관련한 그 외 데이터가 있을지라도 그러한 승인이 특정 환경에서의 단일 연구를 기반으로 이루어진다는 것은 흔한 일이다. 일반적으로 NI(비열등성) 마진을 단일의 무작위 추출식 위약-대조 우월성 연구에 기반을 두는 것은 해당 연구에서의 데이터 가변성을 고려해봐야 한다. 치료 효과 추정은 일반적으로 발생율이나 위험율에서 차이가 있을 수 있는 활성 치료 그룹과 위약 대조 그룹에서의 발생율 간 차이와 같은 어떤 계측법으로 나타난다.
치료 효과는 보통 신뢰구간으로 나타나는 불확실성을 가지고 있다.
95% 신뢰구간의 하한은 역사적 연구에서 활성 대조 약물이 가졌던 효과의 보수적 추정을 제공하며, 또한 시행 변동이 역사적 효과를 다소 줄일 수 있다는 가능성을 인정하면서 미래 NI(비열등성) 연구에서 나타날 것으로 추정할 수 있다. NI(비열등성) 연구의 논리는 활성 대조 약물이 최소한 NI(비열등성) 연구에서 M1과 동일한 효과를 가진다는 가정에 달려 있기 때문에 활성 대조 약물 효과의 보수적 추정을 NI(비열등성) 마진의 근거로 활용하는 것은 매우 중요하다.
추정 치료 효과의 p값이 0.05보다 훨씬 더 적다면, (0.01 또는 0.001 혹은 그보다 훨씬 더 적은 범위에 있는 경우) 95% 신뢰구간의 하한은 일반적으로 0보다 훨씬 위(절대 값에서) 또는 1.0보다 훨씬 아래(위험율과 기타 위험 추정의 경우)에 있을 것이다. 이 경우 우리는 치료 효과가 실질적이며 NI(비열등성) 연구에서 대조 효과가 합당한 규모일 것이라고 더욱 확신할 수 있다.
활성 대조 약물의 단일 위약-대조 시험만이 있는 경우 치료 효과의 연구 대 연구 가변성에 대한 객관적인 평가가 없으며, 필연적으로 대조군이 NI(비열등성) 연구에서 특정 규모의 효과를 가질 것이라는 보증 수준에 대한 우려가 발생한다.
이러한 상황을 감안하는 세심한 잠재적 접근법은 99% 신뢰구간과 같이 더 넓은 신뢰구간의 하한을 사용하는 것이다. 이 접근법은 효과가 매우 큰 경우에 가능하지만 종종 매우 큰 NI(비열등성) 시험을 요구되는 M1을 도출될 것이다. 이것은 밀접하게 관련된 약물 또는 밀접하게 관련된 질병에서의 대조 약물이 유사한 효과를 가지는 경우에 안심하고 사용할 수 있다. 또한 (대조 약물의 효과가 성이나 연령을 기반으로 한 하위그룹에서 유사한 경우와 같이) 부분모집단에서 높은 수준의 내적 일관성을 지니는 것도 결과의 재현성에 대해 어느 정도의 안심을 줄 수 있다. 이러한 연구결과는 NI(비열등성) 시험을 위해 모집단에서의 활성 대조 약물에 대한 단일 연구만을 사용할 수 있는 경우에도 95% 신뢰구간 하한의 활용을 지지할 수 있다.
b. 다수 시험을 통해 HESDE 측정 Determining HESDE from multiple Trials
동일한 모집단에서 동일한 임상 시험은 확률적으로만 상이한 치료 효과 추정을 도출할 수 있다. 2개 이상의 연구가 밀접한 치료 효과 추정을 도출하는 범위는 각 연구의 표본 크기, 연구 모집단의 유사성, 연구 진행(예: 탈락율) 그리고 아마도 측정할 수 없는 기타 요소의 함수이다. 따라서 현재 NI(비열등성) 연구를 위해 마진을 선정할 때 고려해야 하는 또 다른 불확실성 원인은 활성 대조 약물 치료 효과의 추정에서 연구 대 연구 가변성(study-to-study variability)이다.
위약, 효과 없는 치료 또는 치료 없음과 비교한 활성 대조 약물에 대한 다수 연구는 활성 대조 약물의 평균 효과 추정과 그 불확실성뿐만 아니라 효과의 연구 대 연구 가변성 측정치를 확보할 수 있는 기회를 준다. 활성 대조 약물 효과에서 연구 대 연구 가변성은 NI(비열등성) 연구에서 기본 가정 중 하나가 역사적 연구와 현재 NI(비열등성) 연구 간 효과의 일관성이기 때문에 매우 중요한 고려사항이다.
몇몇 케이스는 발생할 수 있는 문제와 활성 대조 약물 효과를 추정할 수 있는 다수 연구의 활용을 설명해준다.
활성 대조 약물에 대한 여러 연구를 구할 수 있는 경우, 평균 효과를 추정할 때 모든 연구와 모든 환자를 고려해야 한다. 효과를 입증하지 못하는 연구를 제외시키는 것은 (매우 타당한 이유가 있는 경우를 제외하고) 대조 약물 효과를 과다하게 추정하여 거짓되게 높은 M1이 도출될 수 있다. 전술한 바와 같이 활성 대조 약물의 치료 효과 없음을 입증하는 적절한 설계와 규모의 연구가 있다는 것은 이질적인 결과를 설명하는 유효한 이유가 있는 경우를 제외하고 그 대조에 대한 NI(비열등성) 연구 진행을 막을 수 있다.
다수 연구로부터 얻은 데이터를 조합하여 활성 대조 약물 효과를 추정하는 경우 효과의 몇몇 변동을 예상할 수 있다.
연구 간 그리고 연구 내 이질성을 모두 감안하는 무작위-효과 메타분석을 활용할 수 있다. 무작위 효과의 분포에 관해 작성된 가정에서 차이가 나는 Frequentist 및 Bayesian 방법을 모두 활용할 수 있다. 연구들 간 변동이 확률적으로 예상했던 것보다 더 높은지를 탐색하기 위해 이러한 방법을 활용할 수 있다. 그러한 경우 연구 간 변동을 감안해야 하며, 그러한 변동으로 인해 NI(비열등성) 연구를 위해 보다 보수적인 마진이 도출될 것이다.
별첨의 예시 1과 2는 NI(비열등성) 시험을 설계할 때 활성 대조 약물의 여러 역사적 위약-대조 시험을 어떻게 평가하는지에 대해 상세히 설명해준다.
앞서 논의한 바와 같이 역사적 연구와 NI(비열등성) 연구 간 활성 비교자 효과의 일관성 가정은 비열등성을 기반으로 한 효능 결론을 내리는 데 있어 매우 중요하다. 그러나 상이한 시점에 상이한 모집단에서 연구 간 일정한 효과가 무엇을 의미하는지 규정하는 데에 기술적인 어려움이 있다. 치료 효과를 공식화하는 수학적 방법은 일관성 가정의 의미와 개연성에 영향 미칠 것이다.
예를 들면 NI(비열등성) 시험을 성공적으로 활용했던 상황인 대부분 심혈관 연구에 보편적인 매우 드문 이진 결과(binary result)에 대한 연구를 생각해보자. 역사적 연구의 위약 그룹에서 발생 확률이 p1이고 활성 치료 그룹에서는 p2라고 가정한다. 이후 역사적 연구에서 치료 효과를 몇 가지 방법으로 식으로 나타낼 수 있다.
p1과 p2는 연구간 다른 경우 p2/p1이 상수가 되도록 다를 수 있다. 예를 들면 한 연구에서 p1과 p2가 0.10과 0.05이고 또 다른 연구에서는 0.06과 0.03인 경우 양 연구에서 모두 p2/p1 비율은 0.5이다. 이후 상대 위험 감소는 양 연구에서 동일하며 오즈비는 대략적으로 동일할 것이다. 그러나 위험 차이는 한 연구에서 0.05이고 다른 연구에서는 0.03이다. 그리고 치료가 필요한 환자수는 20명과 33명이다.
반면 2개 연구가 상이한 p1과 p2를 가지지만 위험 차이가 동일한 경우 양 연구는 동일한 NNT를 가지지만 동일한 상대 위험, 상대 위험 감소 또는 오즈비를 가질 수는 없다. 따라서 일관성에 대한 정의는 효과가 수학적으로 어떻게 공식화되느냐에 달려 있다.
NI(비열등성) 연구의 해석은 일관성 가정에 달려 있기 때문에 (어떠한 것이 있다면) 역사적 연구들 간 그리고 역사적 연구와 NI(비열등성) 연구 간 무엇이 일관성을 가질 것인지에 대한 질문을 특별히 고려해야 한다. 전술한 바와 같이 경험과 기대를 바탕으로 한 결과 연구에 대한 일관성 가정은 보통 절대적이 아니라 상대적 효과의 예상되는 일관성을 기반으로 했다.
치료 그룹에서 성공율 간 절대 차이로서 그리고 활성 비교자 대비 시험 치료에 대한 성공의 상대 위험이나 위험율로서 치료 효과를 표시하는 것 간 차이는 다음 2개 예시에 설명되어 있다.
첫 번째 예시에 관해, 치료율이 선정된 활성 대조 약물을 받는 환자의 경우 40%이상이고 위약 환자의 경우 30%이며 그리고 치료율 차이가 10%인 질병을 생각해보자. NI(비열등성) 연구의 목적은 시험 제품이 효과 있다는 것(즉 위약보다 우월하다는 것)을 입증하는 것인 경우 NI(비열등성) 연구에서 시험 제품과 활성 대조 약물 간 차이는 10% 이하여야 한다.
이후 마진 M1은 10%이다. 추가 임상 목적은 시험 제품이 활성 대조 약물 효과의 절반 이상을 보존한다는 것을 설정하는 것인 경우 시험 제품의 치료율은 대조(M2 마진)보다 더 낮은 5% 이하로 입증되어야 한다.
이러한 접근법은 대조 약물이 NI(비열등성) 연구에서 (만약 있다면) 위약 대비 10% 이상의 효과를 가질 것을 요구한다.
NI(비열등성) 연구에서 모집단이 그러한 이익을 갖지 않은 경우(예: 모든 환자가 이익이 10% 이하로 되도록 시험 약물에 민감하지 않은 질병을 지녔다면), 5% 차이를 배제했을지라도 그러한 것은 원하는 유효성을 입증하지 못한다 (하지만 입증하는 것처럼 보일 수 있다).
이 경우 연구에서 대조의 진짜 효과가 8%였다면 5% 차이를 배제하는 것은 사실상 대조 효과의 원하는 50%뿐만 아니라 시험 약물의 어느 정도 효과를 입증했을 것이라는 점에 유념한다.
두 번째 예시는 위험율(시험/대조) 계측용으로 선정한 NI(비열등성) 마진을 설명한다.
C와 P가 각각 대조와 위약에 대한 원하지 않는 결과의 진짜 비율을 나타낸다고 하자. 위약과 비교하여 대조 효과는 위험율(C/P)로 표시할 수 있다. 위험율 1은 효과 없음을 의미하고 1 이하의 비율은 효과 즉, 원하지 않는 결과의 비율 감소를 입증한다.
위험율과 같은 계측법은 미래 연구에서 발생하는 위약 그룹에서의 발생율에서 가변성에 의한 영향을 덜 받을 수 있다.
예를 들면 3/4 = 0.75의 관심 사건에 대한 위험율은 하기 표에 나와 있는 것과 같이 상이한 연구에 있는 매우 상이한 절대 실패율을 통해 도출할 수 있다. 위험율은 4개 가설 연구 모두에서 유사하지만 실패율에서 절대 차이의 범위는 5% ~ 20%이다.
NI(비열등성) 마진이 4번째 연구에 있는 것과 같이 대조 약물 효과를 입증하는 역사적 연구를 기반으로 했다고 가정하자. 이후 NI(비열등성) 마진(M1)은 20%로 선정된다. 이제, 보다 현대적인 상황 하에서 NI(비열등성) 연구가 연구 1과 같이 더 많은 대조율을 가졌으며 위약과 비교하여 치료 효과 규모가 20%에 훨씬 못 미친다고 가정하자. 이후 20%의 NI(비열등성) 마진(M1)은 NI(비열등성) 연구에서 약물 효과보다 훨씬 더 크며, 20%의 차이를 배제하는 것은 유효성을 전혀 입증하지 못한다. 따라서 33%의 열등성 (또는 1.33의 상대 위험; 즉, 1 ÷ 0.75)을 배제하는 것으로서 NI(비열등성) 마진을 선정했고 대조율이 15%였다면 시험과 대조 간 차이(M1)는 5% 이하여야 한다 (15% x 1.33 = 20% 또는 5% > 활성 대조 약물 그룹에서 15% 비율).
이 경우 절대 효과 규모가 다르지만 위험 감소가 합리적으로 일정하다면 위험율 계측은 NI(비열등성) 연구에서 보다 낮은 발생율로 더 나은 조정을 준다.
III.E 절의 예시를 다시 살펴보면, 스트렙토키나제에 대한 위약-대조 시험에서는 분명히 위약 그룹의 사망률이 감소하고 있었다.
따라서 사망률 감소가 상대적 감소로서 일정했을지라도 절대 감소가 감소하며 치료 효과(M1)의 예상 규모가 더 이상 절대 2.1% 감소이지 않았다. 이에, 사망률의 상대 위험(사망률의 비율)은 이후 혈전용해 제품 개발 프로그램에 활용할 수 있었다. 왜냐하면 상대 사망률로 표시되는 혈전용해 효능이 연구 내 모든 환자에게 개선된 치료 표준이 제공됨에 따라 시간이 경과하면서 더욱 안정적으로 보였기 때문이다.
AMI 치료에서 테넥테플라제 개발에 관해, 관련 역사적 연구에 대한 평가는 비교자(알테플라제 90분 주입)가 0.22 이상(약 0.78까지, 상대 위험 신뢰구간의 상한) 위약과 비교하여 사망률의 상대 위험을 줄였다는 결론을 이끌어냈다.
새 약물이 비교자(M1 = 0.22) 효능의 절반 이상 즉, 0.11(M2) 이상으로 유지될 수 있도록 임상적 판단으로 NI(비열등성) 마진을 선정했다. 위약 대비 테넥테플라제의 상대적 사망률 위험은 0.89 이하이다. 이러한 것은 1.14([테넥테플라제/위약]/[알테플라제/위약] = 0.89/0.78)의 테넥테플라제 대 알테플라제의 상대 위험 비교 제한에 대한 값을 주었으며, 이것은 NI(비열등성) 연구에서 사망률 비율의 95% 신뢰구간(이 경우 일방)에 의해 배제되어야 했다. ASSENT II 연구 결과는 1.104의 상대 위험의 95% 일방 상한을 주었으며, 이로 인해 테넥테플라제가 시판 승인을 얻었다.
이러한 사례는 특정 계측법이 어떻게 작용할 것인지에 대한 이해의 중요성을 설명해준다. 치료 효과를 특징화하는데 있어서 상대 계측(예: 위험율)과 절대 계측(예: 비율 차이) 간 선정은 임상적 해석, 의료적 맥락 그리고 결과율 거동에 관한 과거 경험을 기반으로 할 수도 있다.
d. 할인 Discounting
NI(비열등성) 연구 디자인을 위해 마진 M1을 선정할 때 활용할 수 있는 한 전략은 “할인하거나” 또는 HESDE 분석을 통해 추정할 수 있는 활성 대조 약물 효과의 규모를 축소하는 것이다.
그러한 할인은 과거 성과를 기반으로 하여 NI(비열등성) 연구에서 활성 대조 약물의 효과를 추정할 때 만들어져야 하는 가정에서의 불확실성을 감안하여 이루어진다. 할인에 대한 이러한 개념은 M1 측정에 초점을 맞추며, 임상적 근거에서 잃어버릴 수 있는 효과가 M1의 어떤 분수(즉, M2)라는 임상적 판단과 별개이다.
앞에서 논의한 바와 같이 활성 대조 약물의 역사적 효과(HESDE)를 활성 대조 약물 NI(비열등성) 시험의 새로운 상황으로 변환하는 것과 연관된 불확실성이 있으며, 효과를 할인함으로써(예: “절반을 취함”) 일관성 가정에서 그러한 불확실성을 다루려고 한다. M1을 선정할 때 “자동” 할인을 적용하는 것이 아니라 활성 대조 약물 효과에 관한 우려는 최대한 다음과 같아야 한다.
밀접하게 관련된 문제는 NI(비열등성) 연구와 역사적 연구에서의 모집단 간 관찰되는 차이를 반영해야 할 수 있는 M1 조정의 필요성이다. 예를 들면 역사적 연구에서 남성보다 여성에게서 효과가 더 적다는 연구결과는 NI(비열등성) 연구가 역사적 연구보다 상당히 더 높은 비중의 여성을 포함한 경우 M1의 타당성을 평가할 때 고려되어야 한다.
일반적으로 역사적 데이터에 대한 평가는 NI(비열등성) 연구에 대한 통계적 분석 플랜이 (예를 들면 공변량 조정을 통해) 이러한 요소를 감안하도록 전향적으로 설계될 수 있도록 하기 위해 또는 M1의 값이 NI(비열등성) 연구에 등록된 연구 모집단의 기저선 특성 측면에서 다시 확인될 수 있도록 하기 위해 중요한 하위그룹에 대한 결과에서 차이를 식별해야 한다.
C. 고정 마진 및 합성 방법 Fixed Margin and Synthesis Methods
개념적으로, 비열등성의 결론은 NI(비열등성) 시험 자체와 그 시험에서의 비교자가 효과 있었다는 역사적 증거를 통해 얻은 정보의 합성물이다. 역사적 시험은 Ch – P 즉, 위약 대비 활성 대조 약물의 효과를 평가했다.
NI(비열등성) 시험은 T- Cn 즉, 활성 대조 약물 대비 시험 약물의 효과를 평가한다. 활성 대조 약물에 대한 결과가 연구 간 일정한 경우 Cn = Ch 및 합계 T - Cn + Ch – P = T – P는 위약 대비 시험 약물의 효과를 나타낸다.
NI(비열등성) 시험의 필수 목적은 이러한 효과가 양성(+)이라는 것을 높은 신뢰를 가지고 입증하는 것이다. 또한 NI(비열등성) 시험은 보통 활성 대조 약물의 역사적 효과와 비교하여 최소한 대략적이나마 이러한 효과를 추정하도록 고안된다.
역사적 연구는 Ch – P의 추정에 관련 표준오차 SHE를 제공할 것이다. 이와 같이 NI(비열등성) 연구는 표준오차 SEN을 가지고 T - Cn을 추정할 것이다. 2개 추정은 독립적이기 때문에 합계의 표준오차는 다음과 같이 구할 수 있다.
NI(비열등성) 연구의 해석이 기본적으로는 합성물이라는 점에도 불구하고 우리는 2개의 별도 단계로 문제를 다루는 통계법인 고정 마진법을 권장한다. 이 접근법은 2개의 실질적 이점을 갖고 있다. 첫째, 이것은 NI(비열등성) 연구를 분석하는 문제로부터 NI(비열등성) 마진 M1과 M2를 계산, 정당화 및 조정하는 문제를 분리시킬 수 있게 해준다. 둘째 이것은 합성된 추정에 다소 더 큰 표준오차를 적용하는 것과 동일한데, 이러한 것은 일관성으로부터 사소한 이탈 가능성에 대한 허용으로 볼 수 있다.
1. 고정 마진 접근법 The Fixed Margin Approach
NI(비열등성) 시험에서 분석을 위한 고정 마진 접근법은 잘 알려져 있다 (예를 들어 ICH E9 3.3.2 절을 참조).
이 접근법은 NI(비열등성) 시험 설계 단계에서 미리 지정되고 비열등성의 가설 검정에 충분한 힘을 주기 위해 필요한 표본 크기를 정하는 용도로 사용되는 고정 NI(비열등성) 마진 선택에 의존한다. 운영적으로, 고정 마진 접근법은 보통 다음과 같은 방식으로 진행된다.
첫째, 활성 대조 약물의 과거 위약-대조 연구에 대한 분석을 통해 활성 대조 약물 효과를 추정한다 (IV.B.2.a-b 절 참조).
이 분석의 목적은 NI(비열등성) 연구에서 활성 대조 약물이 가질 것으로 예상되는 효과 이하여야 하는 활성 대조 약물의 과거 효과에 기반한 고정 값 즉, 마진 M1을 규정하는 것이다. 일관성 가정뿐만 아니라 과거 연구 간 관찰되는 치료 효과의 가변성은 M1을 선정할 때 고려되어야 한다.
이후 M2 선정은 약물 승인을 위해 충분한 이익을 입증하고자 할 때 얼마나 많은 활성 비교자 치료 효과가 보유되어야 하는지에 관한 임상적 판단을 기반으로 한다.
M2 결정을 위한 임상적 판단은 M1 결정 이후에 이루어진다. 이 연구 내 무작위 추출된 모든 환자와 활성 비교자에 대한 모든 관련 연구는 일반적으로 마진 M1을 결정할 때 활용하는데, 그 이유는 그러한 것이 활성 대조 약물 효과의 보다 신뢰할 수 있는 추정을 제공하며 어떤 역사적 연구를 포함시킬지를 선택할 때 편견 가능성을 없애주기 때문이다. 그러나 과거 연구의 관련성 판단은 간단하지 않을 수 있으며, 별첨의 예시 1(A)와 2에서 이러한 사항을 설명한다.
과거 연구를 기반으로 한 추정 활성 대조 약물 효과의 신뢰구간 하한은 보통 M1으로 선정된다.
과거 가변성과 일관성에 관한 우려로 인해 이전 절에서 논의한 바와 같이 역사적 데이터와 실시할 NI(비열등성) 연구 간 불일치와 불확실성의 원인을 감안하기 위해 M1을 선정할 때 이러한 하한을 할인(discount)해야 한다고 판단할 수도 있다. 이후 이러한 효과의 얼마나 많은 부분을 보존해야 하는지에 관해 임상적 판단이 이루어진다.
M2를 M1의 50%로 선정하는 것은 효과가 작을 수 있는 심혈관(CV) 결과 연구의 경우 일상적 시행으로 되었으며, 최초 치료 효과의 절반 이상을 보존해야 한다. 항생제 시험의 경우 효과는 위약 또는 효과 없는 치료와 비교하여 매우 큰 경향이 있으며, 결과적으로 치료 차이(M2)에 대한 10-15% NI(비열등성) 마진이 일반적으로 선정된다. M1 50%의 M2는 상대적 척도에 있는데 반해, 10-15%는 항생제 약물에 대한 위험 차이 척도에 있다는 점을 유념한다.
또한 NI 가설의 공식 검정은 95% 신뢰구간 활용을 포함한다 (즉, C-T > M2를 배제하는 것). 따라서 고정 마진 접근법에는 2개의 신뢰구간이 포함되는데, 하나는 하한을 M1으로 선정하는 역사적 데이터용이고 다른 하나는 NI(비열등성) 연구용(C-T > M2를 배제하는 것)이다. 양 구간은 보통 95% 신뢰구간이다. 그러한 이유로 이러한 고정 마진 접근법은 때때로 95%-95%법으로 불린다.
NI(비열등성) 연구의 분석으로부터 역사적 데이터(즉, M1 선정)를 기반으로 한 활성 비교자의 치료 효과를 추정하는 프로세스를 분리시키는 것은 2가지 이점을 안고 있다. 이것은 M1 (및 도출된 M2)에 대해 임상적으로 이해할 수 있으며, 미리 지정된 NI(비열등성) 마진에 대해 목표를 충족하기 위해 NI(비열등성) 연구에 필요한 힘과 제I형 오차의 대조를 달성할 수 있도록 NI(비열등성) 연구의 표본 크기를 기획하기 위한 근거가 되는 단일 숫자를 제공한다. M1을 추가 할인하거나 아니면 적합한 경우 더 협소한 신뢰구간을 사용하기 위한 결정은 쉽게 설명할 수 있으며 고정 마진 접근법을 다소 보수적으로 만들 것이다.
NI 임상 마진 M2에 대한 결정은 얼마나 큰 대조 치료 효과 손실을 수용할 수 있는지에 대한 판단, 결과의 심각도를 반영할 수 있는 고려사항, 활성 비교자의 이익 그리고 시험과 비교자의 상대적 안전 프로파일의 문제이다. 또한 M2 선정은 주요한 실질적 함의도 지닌다.
예를 들면 대규모 심혈관 연구에서, 임상적으로 합당할 수 있을지라도 대조 약물 효과 50% 이하의 손실을 반영하는 M2를 취하는 것은 드물다. 왜냐하면 그렇게 하는 경우 보통 연구 규모를 실행 불가능하게 하기 때문이다. 물론 (특히 사망률과 심각한 이환율의 평가변수에 대해) 표준 대비 시험 약물의 너무 많은 열등성을 허용하는 것은 분명히 수용할 수 없다.
고정 마진 접근법은 NI(비열등성) 연구 전에 고정되는 단일 숫자로서 NI(비열등성) 마진을 고려한다. NI(비열등성) 연구에서 검정을 거치는 가설은 물론 활성 대조 약물이 최소한 예상 효과(M1과 동일함)를 가졌다고(즉, 연구는 어세이 민감도를 가졌음) 가정하면서 활성 대조 약물 대비 시험 약물의 비교가 지정된 NI 기준을 충족하는지 여부를 좌우한다.
차이 > M1을 배제하는 성공적인 NI 결론은 (p ≤ 0.05 복용량에서 유의한 효과를 입증하는 우월성 시험과 같이) 시험 약물이 효과 있다는 것을 입증하며, 차이 > M2도 배제하는 경우에는 신약이 대조 약물 효과의 원하는 분율(fraction)을 보존한다는 것을 입증한다.
2. 합성 접근법 The Synthesis Approach
대체 통계 접근법은 2개 데이터원(HESDE를 결정하는 용도로 사용되는 과거 연구 및 현재 NI(비열등성) 연구)의 가변성을 반영하면서 역사적 시험이나 현재 NI(비열등성) 시험의 데이터를 조합하거나 합성하기 때문에 합성 접근법이라고 한다.
합성법은 시험 제품이 NI(비열등성) 연구에서 위약이 있었더라면 위약보다 우월했을 지에 관한 문제를 직접적으로 다루고, 또한 활성 대조 약물 효과의 어떤 분율이 시험 제품에 유지되는지에 관한 문제를 다루도록 설계된다.
합성 접근법에서 M1은 사전에 지정되지 않지만 보존될 활성 대조 약물 효과의 퍼센트는 사전에 지정된다.
NI(비열등성) 연구에서 시험 약물 대 활성 대조 약물 비교의 관찰 결과를 기반으로 하여 M1을 정하지 않은 상태에서 시험제가 활성 대조 약물의 임상적으로 관련한 효과 보존을 시연했는지에 관한 평가가 이루어진다.
합성 접근법은 NI(비열등성) 연구에서 시험 약물과 병행 활성 대조 약물의 비교에 역사적 시험의 데이터를 조합할지라도 위약과의 직접적인 무작위 추출된 병행 비교가 당연히 불가능하다. 그 이유는 위약 그룹이 병행 대조가 아니며 NI(비열등성) 연구 내 그러한 그룹에 대한 무작위 추출이 없기 때문이다. 따라서 NI(비열등성) 연구의 일부가 아닌 위약 그룹과의 귀속 비교(imputed comparison)는 고정 마진 접근법이 그러하듯이 몇몇 가정의 타당성에 달려 있다.
역사적 위약-대조 시험을 통해 도출한 활성 대조 약물 효과의 일관성에 대한 핵심 가정은 고정 마진법이 사용될 때와 같이 합성법이 사용될 때 중요한 사항이다.
합성 접근법의 사용은 일관성 가정이 유지되는 경우 (표본 크기를 축소할 수 있게 하거나 주어진 표본 크기에 대해 더 큰 힘을 달성함으로써) 고정 마진 접근법보다 더 효율적으로 설계된 연구를 이끌어낼 수 있다.
합성 접근법의 보다 큰 통계적 효율성은 이 방법이 활성 대조 약물 대비 시험 제품의 비교 표준오차를 다루는 방법을 통해 도출된다. 2개 방법의 비교와 분산 계산은 별첨의 예시 1(B)를 참조한다.
합성 접근법은 고정 NI(비열등성) 마진을 지정하지 않는다.
오히려 이 방법은 역사적 시험의 메타분석을 통해 얻은 대조 효과 추정과 NI(비열등성) 시험을 통해 얻은 대조 대비 치료 효과의 추정을 조합 (또는 합성)한다.
합성 프로세스는 NI(비열등성) 시험과 역사적 시험의 타당성을 활용하며, 대조 효과를 기반으로 하여 특정한 고정 NI(비열등성) 마진이나 해당 대조 효과를 사실상 지정하지 않고서 치료가 대조 효과의 고정 분수를 보존한다는 NI 가설을 검정하기 위해 하나의 신뢰구간을 산출한다. 대조 효과의 규모와 상관없이 시험 약물에 유지되어야 하는 대조 치료 효과의 수용 가능한 분수를 미리 지정하려면 임상적 판단을 활용한다.
합성 접근법의 단점은 NI(비열등성) 시험전에 M1의 규모를 기반으로 하여 M2를 선정하기 위해 임상적 판단을 활용하는 것이 불가능하다는 것이다.
D. 임상적 마진(M2) 선정을 위한 고려사항 Considerations for Selecting the Clinical Margin (M2)
M2는 NI(비열등성) 연구에서 배제되어야 하는 사전 지정된 NI(비열등성) 마진이다. 임상적 판단을 기반으로 하는 M2의 결정은 보통 M1의 퍼센티지나 분수를 취함으로써 계산할 수 있다.
M2를 결정하는데 있어서 임상적 판단은 심혈관 결과 연구와 관련하여 전술하였듯이 실제 질병 발생율이나 출현율뿐만 아니라 연구를 위해 누적되어야 하는 표본 크기의 실용성에 대한 이것의 영향을 고려할 수 있다.
예를 들면 다음과 같을 때 더 넓은 마진을 선택하면서 M2 마진 선정에 있어서 유연성이 있을 수 있다.
그러나 NI(비열등성) 연구에 실행할 수 없는 표본 크기를 요구하지 않고서 M1의 더 큰 분율의 보존을 시연할 수 있게 하면서 활성 비교자 반응율과 미치료 반응율 간 차이가 큰 경우에는 M2를 보다 엄격하게 선정하는 것이 필요할 수도 있다.
M1과 M2 대비 열등성을 배제하지 않음으로 인한 함의는 다르다. M1 대비 열등성을 배제하지 않는 것은 어떠한 효과의 보증도 없다는 것을 의미한다.
p>0.05를 가지고 위약-대조 연구를 양성(Positive, 즉, 우월한 연구결과)으로 수용하는 것이 흔하지 않은 것과 같이 95% 신뢰구간의 상한이 > M1인 경우 NI(비열등성) 연구를 양성(즉, 비열등성 연구결과)으로 수용하는 것도 흔하지 않다.
반면 (M1의 사전 지정된 50% 손실이 아니라 M1의 52% 손실을 배제하는 것과 같이) 소량으로 M2를 제외하지 않는 것은 수용할 수도 있다. 그 이유는 이런 소량은 약물의 효과 없음을 의미하지 않기 때문이다.
E. 표본 크기 추정 Estimating the Sample Size
시험 약물이 진짜 열등하지 않은 경우 NI(비열등성) 마진을 배제한다는 결론을 내리기에 시험이 적합한 통계적 검정력을 지닐 수 있도록 NI 임상 시험에 대한 표본 크기를 계획해야 한다.
시험 계획서 기획 단계에서, 고정 마진 접근법을 이용하여 NI(비열등성) 마진(M2)이 지정되며 표본 크기는 그러한 마진을 배제해야 한다는 필요성을 기반으로 한다.
마진 크기와 치료 효과의 추정 분산(T 대 C)은 표본 크기 결정에 영향을 미친다.
사건을 평가하는 임상시험(event-driven trials)의 경우 NI(비열등성) 연구에서 사건 발생율이 예상보다 더 적다면 비열등성을 입증하는 검정력은 줄어든다. 따라서 중간 발생율이 예기치 못하게 낮은 경우 표본 크기를 조정하고 연구 동안에 전반적인 (맹검식) 발생율을 모니터해야 할 수도 있다 (우월성 시험에서는 보편적인 관례).
표본 크기 계획 시 추가 고려사항이 하나 더 있다. 사실상 시험 약물이 대조약물보다 다소 더 효과적인 경우, 시험 약물이 대조와 동등하거나 다소 열등한 경우보다 주어진 NI(비열등성) 마진을 배제하기가 한결 더 쉬우며 더 작은 표본 크기를 사용할 수 있다.
물론 다소 효과가 더 적은 시험 약물은 더 큰 표본 크기가 필요하다.
연구 기획 시점에 발생율이나 endpoint 가변성과 같은 가정에 대한 불확실성 때문에 NI(비열등성) 연구를 비롯한 어떤 연구에 적합하게 표본 크기를 계획하는 것이 어려울 수도 있다. 이러한 이유로 한 번 이상의 예정된 중간 관찰에서 더 큰 표본 크기의 전향적 재추정을 고려할 수 있는 순응적 연구 디자인(adaptive study design)을 고려할 수도 있다.
F. 연구 품질과 분석군 선정 Study Quality and Choice of Analysis Population
전통적으로 무작위 배정 임상적 우월성 시험(randomized clinical superiority trial)의 1차 분석(primary analysis)은 치료 의도(ITT, intention-to-treat) 원칙을 따른다. 즉, 무작위 배정된 모든 환자는 연구를 완전 떠나는 환자를 비롯하여 무작위 배정된 치료법에 따라 분석된다.
이러한 접근법은 시험 계획서 위반이나 소모(attrition) 때문에 분석에서 제외되는 환자 또는 치료를 변경하는 환자와 연관된 다양한 편향을 방지하고자 함이다.
우월성 시험에서 ITT 원칙을 고수하는 것은 일반적으로 다수의 시험 계획서 위반으로 인해 발생하는 나쁜 연구 품질(poor study quality)이 치료들 간 차이가 없음의 귀무가설 쪽으로 결과를 편향시키는 경향이 있다는 점에서 보수적이라고 볼 수 있다.
NI(비열등성) 시험의 경우에는 정반대이다. III.D.3 절에서 언급했듯이 사실상 시험 약물이 열등할 수도 있을 때 품질 문제로 치료 그룹들이 유사하게 보이도록 할 수 있다 (즉, NI(비열등성) 시험의 경우 대립가설 쪽으로 결과를 편향시키는 것).
미준수(non-adherence), 1차 평가변수의 잘못된 분류 또는 소모와 같은 우월성 시험 실패를 야기할 수 있는 수많은 문제가 연구 결과를 치료효과 차이가 없음(성공) 쪽으로 편향시키고 시험 타당성을 저해하여, 시험 약물이 사실상 열등할 때 겉으로 보이는 비열등성을 도출할 수 있다.
비열등성 귀무가설 하에서 결측치의 대치(imputation of missing data)는 소모(attrition)로 인한 편향에 대응할 수 있는 한 가지 접근법이다.
NI(비열등성) 연구 진행을 위한 최상의 조언은 기획 단계에서 연구 품질을 중시하고 진행과 분석 단계에서 시험을 지속적으로 모니터링하여 전술한 문제를 최소화해야 한다는 것이다.
NI(비열등성) 시험이 공개방식(open label)인 경우 연구 이후에 환자 등록, 평가변수의 평가 및 그 외 연구 절차를 공정하게 진행했다는 것을 입증하기가 매우 어려울 수 있기 때문에 품질에 대한 주의가 더더욱 중요해진다.
G. 단일 시험에서 비열등성과 우월성 검정 Testing Non-Inferiority and Superiority in a Single Trial
일반적으로 하나의 1차 평가변수와 하나의 시험 치료 복용량만이 있을 때에는 비열등성을 입증하도록 기획된 시험을 활용하여 제I형 오류율 증가(inflating the Type I error rate)에 대한 우려 없이 우월성에 대해 시험할 수도 있다.
이러한 순차적인 시험 절차(sequential testing procedure)는 비열등성과 우월성 시험 모두에 대해 2.5% 수준으로 통제되는 제I형 오류율을 가진다. 그러나 주로 우월성을 입증하도록 설계된 연구는 NI(비열등성) 연구의 핵심 특징을 가진 경우에만 신뢰할 수 있는 비열등성 증거를 도출한다 (예: NI(비열등성) 마진이 사전에 지정되어야 하고 어세이 민감도와 HESDE가 설정되어야 한다). 시험 결과가 확인될 때까지 마진이 결정되지 않은 경우, 우월성 입증 실패 이후 계획에 없던 비열등성의 측정은 시험 약물의 비열등성을 입증하기에 충분하지 않다.
우월성에 대한 시험도 포함하는 NI(비열등성) 연구에서 다수 평가변수나 다수 시험 치료 복용량을 평가하는 경우 가설 검정을 실시해야 하는 순서에 대해 세심한 기획이 필요하다.
예를 들면 1차 평가변수의 우월성을 핵심 2차 평가변수의 비열등성 평가 전에 검정할 것인가 아니면 이후에 검정할 것인가?
다중검정에 대한 조정(adjustment for multiplicity)이 필요한지 여부를 결정할 때 그리고 제I형 오류율의 적합한 통제가 임상시험에서 달성될 수 있도록 하기 위해 어떤 검정을 적용할지를 결정할 때 의사결정 트리(decision tree)가 유용할 수 있다.
일반적으로 임상시험 동안에 제I형 오류율 증가의 가능성이 있기 때문에 다수의 평가변수(multiple endpoints)나 다수 복용량(multiple doses) 간 비열등성과 우월성의 다중 검정(multiple tests)에 대해 95% 신뢰구간을 적용하는 것은 적합하지 않다. 다중 검정에 대한 조정을 반영하는 더 넓은 구간(예: 97.5% 이상의 신뢰구간)을 활용해야 할 수도 있다.
V. 자주 묻는 질문 및 일반 지침 Frequently Asked Questions and General Guidance
1. NI(비열등성) 연구에서 평가되는 질병에 대해 활성 대조 약물의 역사적 위약-대조 시험이 없는 경우 마진을 규정할 수 있는가?
1. Can a margin be defined when there are no historical placebo-controlled trials of the active control for the disease being assessed in the NI study?
활성 대조 약물이 과거에 다른 활성 치료 대비 우월성을 입증한 경우 이 입증된 차이는 HESDE의 보수적 추정 즉, 확실히 M1을 선정하는 근거로서 역할을 할 수 있는 것을 의미한다. 또한 관련 질병에서 활성 대조 약물의 시험이 관련 있을 수도 있다.
보다 어려운 문제는 동시적으로 대조되지 않는 시험(non-concurrently controlled trials)을 통해 얻은 역사적 경험을 활용하여 NI(비열등성) 마진을 규정할 수 있냐 하는 것이다. 대답은 가능하다 이다. 하지만 역사적으로 대조된 시험의 설득력을 평가하는 것에 관한 다음의 3가지 일반적 기준을 충족하는 경우에만 가능하다 (ICH E10 참조).
이후 치료 및 미치료 반응율이 상당한 차이를 보이는 경우 NI(비열등성) 마진을 결정할 수도 있다. 예를 들면 질병의 자연 치료율이 10-20%이고 활성 대조 약물을 이용한 치료율이 70-80%인 경우 이러한 비율은 상당한 차이가 있는 것으로서 M1을 구하는 용도로 활용할 수 있다. 이후 M2를 위해 이러한 효과의 임상적으로 수용 가능한 손실을 구할 수 있다.
이러한 식으로 구한 마진에 대한 몇몇 사례가 지역사회 획득 박테리아성 폐렴에 대한 시험과 같이 항생제 시험에 대한 지침으로 제시되어 있다 (별첨의 예시 4 참조). 자연 치료율과 활성 약물 치료율 간 차이가 작은 경우에는 마진을 식별하기가 더욱 어렵다.
예를 들면 역사적 자연 치료율이 40%이고 활성 대조율이 55%인 경우 그러한 작은 차이는 상이한 질병 정의나 보조 치료의 결과일 수 있기 때문에 이 경우 NI(비열등성) 마진을 15%로 식별하는 것은 합당하지 않다. 치료를 받지 않은 환자의 치료율과 활성 대조 약물의 역사적 치료율이 실제 연구를 통해 전혀 알려져 있지 않은 경우(즉, 임상적 인상(clinical impression)에만 기반한 경우) NI(비열등성) 마진을 규정하는 것은 어렵거나 불가능하다.
2. 마진 M2는 유연할 수 있는가?
2.Can the margin M2 be flexible?
III와 IV 절에서 상세히 논의했듯이 미진 M1과 M2가 충족되었다는 것을 입증하는 것 간에 상당한 차이가 있다. M1은 NI(비열등성) 연구가 시험 약물이 효과를 가진다는 것을 입증하는지 여부를 판단하는 용도로 활용된다.
95% 신뢰구간이 M1 이상의 손실을 배제하지 않았다는 결과를 수용하는 것은 추정 치료 효과가 p ≤ 0.05에서 유의하지 않았던 우월성 연구를 유효성의 증거로 수용하는 것과 유사하다.
반면 M2는 보유되어야 하는 활성 대조 약물 효과의 양에 대한 임상적 판단을 나타낸다. M2에 대한 전형적인 값은 M1의 50%인 경우가 많은데, 그 이유는 일부분 활성 대조 약물 효과의 더 큰 양(예: 60% 이상)을 보유하는데 필요한 표본 크기가 비현실적으로 커지기 때문이다. 이 경우 연구가 M2 마진을 배제하지 않은 경우 어느 정도의 유연성을 위한 보다 나은 주장이 있다.
예를 들면 48% 보유 보증(assurance of 48% retention)을 수용 가능한 것으로 간주해야 하는 이유가 있을 수 있다. 또한 우리는 보다 보수적인 고정 마진법이 일반적으로 M1을 배제시키는데 사용되어야 하지만 합성법을 이용하여 M2와 관련한 비열등성을 평가할 수 있다는 결론을 내렸다. 물론 (특히 사망률과 심각한 이환율의 평가변수에 대해) 시험 약물이 매우 큰 양으로 표준 대비 열등하도록 하는 것은 수용 불가하다.
3. NI(비열등성) 마진을 선정할 때 또는 NI(비열등성) 연구가 그 목적을 입증했는지 여부를 결정할 때 과거 정보 또는 기타 데이터(예: 관련 약물 연구, 약학적 효과)를 통계적으로 고려할 수 있는가?
3. Can prior information or other data (e.g., studies of related drugs, pharmacologic effects) be considered statistically in choosing the NI margins or in deciding whether the NI study has demonstrated its objective?
다른 관련 적응증(other related indications)에서 또는 다른 평가변수(other endpoints)로부터 사전 정보(prior information)를 통계 모형이나 베이지안 방법(Bayesian framework)에 통합하여 효과의 증거로써 사용할 수 있다.
IV.B.2.b 절에서 논의했듯이 메타분석은 종종 NI(비열등성) 마진을 설정하는 목적으로 활성 대조 약물의 평균 효과를 추정하는 용도로 활용되며, 특정 경우 관련 표시를 통한 또는 동일한 등급의 다른 약물에 대한 시험이 이러한 목적으로 시행되는 메타분석에 포함될 수도 있다. 몇몇 메타분석법은 무작위 배정되지 않거나 대조되지 않는 연구 또는 관련성이 덜한 연구(예: 관찰 연구)의 down-weighting을 허용하며, 이러한 것은 위약-대조 시험을 거의 구할 수 없는 경우 특히 중요할 수 있다.
모델 파라미터의 사전 분포를 활용하여 과거 활성 대조 약물 연구의 역사적 정보를 사용하는 Bayesian법은 NI(비열등성) 시험 자체에서의 비열등성을 평가하기 위한 대체 접근법을 제공해준다. 문헌에서 논의되어 있고 다른 연구 환경에서 사용될지라도 CDER과 CBER은 설계와 분석을 위해 Bayesian 접근법을 활용하는 신약이나 치료 관련 생물제제의 NI(비열등성) 시험을 평가하는데 있어서 현재까지 많은 경험을 갖지 못했다. 의뢰자는 Bayesian NI(비열등성) 시험 진행을 계획하고 있다면 기관과 미리 논의하는 것이 바람직하다.
현재 NI(비열등성) 연구에서보다 역사적 연구에서 중요한 공변량이 상이하게 분포되는 경우 모델 기반 접근법(model-based approaches)을 활용하여 NI 분석에서 이러한 공변량을 조절할 수 있다. 그러한 공변량은 NI(비열등성) 시험 전에 확인해야 하며 공변량 조정법은 NI(비열등성) 시험 계획서에 전향적으로 명시해야 한다. NI(비열등성) 시험의 분석 시점에 사후 조정(post-hoc adjustments)을 적용하는 것은 적합하지 않다.
4. 연구 대상 질병에 대한 표시가 제품 라벨링에 없는 경우 비열등성을 입증하도록 설계된 연구에서 약물 제품을 활성 비교자로 사용할 수 있는가? 그리고 문헌에 게재된 보고서를 활성 대조 약물의 치료 효과를 지지하는 용도로 활용할 수 있는가?
4. Cam a drug product be used as the active comparator in a study designed to show non-inferiority if the product's labeling does not have the indication for the disease being studied, and could published reports in the literature be used to support a treatment effect of the active control?
선정된 NI(비열등성) 마진을 지원하기 위해 신뢰할 수 있고 재현 가능한 적합한 데이터가 있는 경우 NI(비열등성) 연구에서 연구 대상 표시에 대해 미국에서는 활성 대조 약물을 라벨링하거나 승인할 필요가 없다. FDA는 몇몇 경우 간행된 문헌을 활용하며, NI(비열등성) 마진을 규정하는 용도로 사용되는 활성 대조 약물 효과에 대한 메타분석을 실시할 때 그렇게 해왔다. FDA 지침 “유효성에 대한 중요 증거 제출”에서는 유효성에 대한 증거를 제출하는데 있어서 문헌 활용을 고려하는 것에 관한 접근법을 설명하며 유사한 고려가 여기에서도 적용된다. 이러한 고려 중 일부는 다음과 같다.
전술한 바와 같이 NI(비열등성) 연구의 평가변수는 대체 평가변수가 잘 평가되고 그 평가변수에 대한 데이터가 M1을 결정하는데 사용 가능한 경우 연구에서의 1차 평가변수(심혈관 관련 사망)과 다를 수 있다(예: 사망, 심장마비 및 뇌졸중) (질문 6도 참조).
5. 연구되고 있는 적응증에 대해 활성 대조 약물이 승인되는 경우 마진을 정당화해야 하는가? 아니면 활성 대조 약물이 현재 연구와 유사한 설계의 또 다른 연구에서 과거에 활성 비교자로 활용되었고 마진이 이전에 정당화된 경우 단순히 사용된 이전 마진을 참조할 수 있는가?
5. If the active control drug is approved for the indication that is being studied, does the margin need to be justified, or if the active control drug has been used as an active comparator in the past in another study of design similar to the current study and a margin has been justified previously, can one simply refer to the previous margin used?
NI(비열등성) 시험의 경우와 동일한 적응증(indication)에 대해 활성 대조 약물이 승인되는 경우 활성 대조의 라벨에 명시되는 효과 규모는 보통 모든 과거 연구의 메타분석이 아니라 확증적 임상시험(pivotal trial)을 기반으로 한다.
또한 과거 연구들 간 효과의 가변성(variability of the effect)을 구할 수 없을 수도 있다.
일반적으로 약물 승인은 (보통 2개 이상 연구에서의) 위약 대비 우월성 입증을 기반으로 하지만 FDA는 효과가 과거 연구들 간 일관성이 있는지를 평가하지 않았었을 수 있고 “실패한” 연구를 분석하지 않았었을 수도 있다. 따라서 실제 대조 효과의 합리적인 추정을 계산하기 위해 시판후에 실시되는 시험을 비롯하여 (시험이 유의한 결함을 갖고 있지 않는 한) 이용 가능한모든 대조 시험을 통해 얻은 데이터를 활용해야 한다. 동일한 적응증의 또 다른 연구를 위해 NI(비열등성) 마진을 규정하고자 활성 대조 약물 데이터를 활용한 경우 그리고 포함된 시험이 새 시험과 관련 있다는 결정이 내려지는 경우 새 시험에서 동일한 마진의 사용은 수용 가능하다.
6. NI(비열등성) 시험에 대한 평가변수를 선택할 때 어떤 요소를 고려해야 하는가?
6. What factors should be considered when selecting an endpoint for a NI trial?
임상 시험(우월성 또는 비열등성)용으로 선정된 평가변수는 타겟 모집단에서 신뢰할 수 있는 평가가 이루어질 수 있도록 환자가 느끼거나, 기능하거나, 생존하는 방식에 대한 임상적으로 의미 있는 측정이어야 한다.
평가변수는 일반적으로 모집단에서 질병의 발생율이나 기타 측정을 반영하지만 평가변수와 관련한 우월성이나 비열등성을 입증하는데 필요한 연구 규모와 같은 실질적 고려사항도 감안해야 한다. NI(비열등성) 연구에서 평가변수는 활성 대조 약물의 효과를 알기 위한 우수한 근거가 있는 것이어야 한다.
평가변수는 반드시 역사적 시험에 사용된 평가변수 또는 활성 대조 약물의 라벨링에 나타나는 유효성 평가변수일 필요가 없다.
사망률 평가변수에 대한 효과를 입증하는데 성공했던 과거 시험은 (예를 들면) NI(비열등성) 연구를 위해 원하는 평가변수인 경우 합성 평가변수(심혈관 관련 사망, 심근경색증 및 뇌졸중)에 대한 효과를 추정하기 위한 근거로서 역할을 할 수 있다.
NI(비열등성) 연구에서 상이한 평가변수의 사용은 더 적은 규모의 연구를 허용하기 때문에 바람직할 수도 있지만 활성 대조 약물에 의해 영향받지 않았거나 중요한 임상 이익을 나타내지 않았던 구성요소를 포함시키지 않아야 한다.
7. NI(비열등성) 연구 진행이 실행 불가능할 수 있는 상황이 있는가?
7. Are there circumstances where conducting an NI study may not be feasible?
불행히도, 위약-대조 연구가 비윤리적이라고 여겨지는 것을 포함하여 몇 가지 상황이 있다. 몇몇 예시를 들자면 다음과 같다.
8. 위약-대조 시험이 비윤리적이라고 여겨지지만 NI(비열등성) 연구를 수행할 수 없는 경우 옵션은 무엇인가?
8. In a situation where a placebo-controlled trial would be considered unethical, but a NI study cannot be performed, what are the options?
그러한 경우 윤리적이라고 여겨지는 적합한 인구를 대상으로 하여 우월성 연구를 설계할 수 있다. 몇몇 가능성이 ICH E10에 논의되어 있는데, 예를 들면 다음과 같다.
9. 단일 NI(비열등성) 연구는 유효성을 입증하기에 언제 충분할 수 있는가?
9. When can a single NI study be sufficient to support effectiveness?
상기의 몇몇 절에서 이 문제를 다루는데, 특히 III.H 절에서는 이 문제를 세부적으로 논의한다.
간략하게 말하자면, NI 환경에서 단일 연구에 대한 의존은 M2 마진을 이용하여 비열등성을 입증하는 엄격함에 대한 추가 고려와 함께 우월성 환경에서 단일 연구에 대한 의존과 유사한 고려를 기반으로 한다.
이러한 고려 대부분이 FDA 지침 “유효성에 대한 임상적 증거 제출”에 설명되어 있으며, 약학적으로 유사한 물질에 대한 결과와 같은 지원적 정보(NI(비열등성) 연구는 종종 동일한 약학적 등급의 약물을 비교하기 때문에 매우 보편적인 고려), 신뢰할 수 있는 생체지표 정보를 활용한 지원(종양 반응, ACE 억제, 베타 차단) 그리고 단일 NI(비열등성) 연구를 통한 통계적으로 설득력 있는 결과가 여기에 포함된다.
후자와 관련하여 위에서 주목할 점은 치료 차이 > M2를 배제하는 것을 기반으로 한 NI의 연구결과가 M2가 M1보다 크게 더 적을 때 시험 치료가 효과 > 0을 가진다는 매우 강력한 증거를 제공한다는 것이다. 이러한 모든 이유로 평가변수로서 사망률이나 심각한 이환율을 이용한 대부분 NI(비열등성) 연구는 분명하게 성공하는 경우 단일 연구로서 NI를 입증하기에 충분하다.