首頁/ 健康/ 正文

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

作為四大臨床醫學期刊之首,《新英格蘭醫學雜誌》鮮有發表與統計相關的文章。2016年,雜誌卻破天荒的連續發表了兩篇與統計相關的綜述性文獻——

臨床試驗結束後,“陰性結果”和“陽性結果”該如何解讀。

雖然文章已經發表了5年,但是不得不說,頂級期刊所發表的文章極具啟發性,文章中的很多觀點,對後續臨床研究結果的解讀非常具有幫助。筆者雖然不是專業的統計人士,但還是嘗試對全文進行翻譯,以期望對讀者有所幫助。在原文中,多數舉例來自心腦血管系統疾病的研究。筆者也會在每一部分的“補充”內容中,額外增加肺癌領域的相關研究例項。以下為編譯正文。

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

一個設計良好的臨床試驗,其可信度來自於對於預先設定研究假設的推斷,這可以幫助研究者避免基於探索性資料得到假陽性結論。但是,

目前廣泛存在的一個不合理的現象是:所有臨床研究都以

P

值是否<

0.05

被人為分為“陽性”或者“陰性”結果,這種做法過於簡單粗暴。

P值應當被視作一個連續變數,P值越小,說明研究證據越強。此外,置信區間在表徵治療效應的不確定性時,同樣有用。對於任何一項臨床試驗的解讀,都應該是基於完整的證據(如主要研究終點、次要研究終點及安全性資料),而不僅僅是基於單一的終點。

在此,我們提出了面對一項主要終點為陰性的臨床試驗時,需要考慮的一些問題。文中的例子多數來自於我們專長的心血管領域,但其背後的道理一體適用。

結果為陰性時候的幾個關鍵為題

當研究大於0。05這一預設的顯著性水準時,說明這一治療策略充滿不確定性,我們第一反應可能是:哪兒錯了?真的沒有效果嗎?有彌補的希望嗎?下一步怎麼辦?以下12個問題的充分考慮及解答,可能會為結果的解讀提供有效路徑,分別是:1、有潛在獲益的趨勢嗎?2、把握度足夠嗎?3、主要研究終點的選擇是否合適(或者被準確定義)?4、研究人群合理嗎?5、治療方案合理嗎?6、研究執行有缺陷嗎?7、非劣效結論有價值嗎?8、亞組分析顯示陽性訊號嗎?9、次要研究終點有陽性發現嗎?10、改變分析策略有幫助嗎?11、有更積極的外部證據嗎?12、是否有充分的生物學依據支援這一治療?

一、有潛在獲益的趨勢嗎?

在P值大於0。05的前提下,推斷是否存在獲益訊號(獲益傾向)需要經過充分考慮。當主要研究終點呈現完全陰性的結果,對於這類臨床試驗的解釋可以乾脆利落。例如,PERFORM研究探索了特魯曲班vs 阿司匹林在缺血性卒中的療效及安全性,結果顯示,兩組在缺血性卒中、心肌梗死及其他心血管事件組成的複合終點上無差異(HR=1。02,95%,CI,0。94-1。12)。這項研究因其中期無效性分析被提前終止,且並無安全性優勢。這些資料支援將這項試驗定性為“陰性試驗”。

與此相反,TORCH試驗分析了沙美特羅聯合氟替卡松vs安慰劑在慢性阻塞性肺疾病中的療效及安全性,主要終點全因死亡的P值為0。052,但是在其他結局中,包括COPD的急性加重、健康狀態等指標,沙美特羅聯合氟替卡松相較於安慰劑均展示了更好的療效。因此,審慎全面的解讀這項研究比單純定性為“陰性”結果更加合適。

補充:

如前文所述,基於P值是否小於0。05將臨床試驗簡單的分為“陽性“和”陰性“過於簡單粗暴,因此,文章開篇作者就提到,動態看待P值。對於P=0。06和P=0。6的研究,雖然均大於0。05,但是其解讀可能是不一樣的。只是,當把P值當成一個連續變數的時候,”無獲益的陰性結果“和”有獲益趨勢的陰性結果“,其P值的分界點又在哪裡呢?這對結果的解讀又引入了不利的人為因素。

二、把握度是否足夠

納入的病例數不夠有可能導致本來存在的療效並不顯著,即出現假陰性結果(II類錯誤)。例如,在一項臨床試驗中,研究者分析了比索洛爾相較於安慰劑在心衰患者中的療效及安全性,首要研究終點——全因死亡風險的HR值為0。80 (95%CI,0。56-1。15),但是,研究僅有621例患者,試驗的把握度不夠。幸運的是,申辦方擴大樣本含量,進行了CIBISII研究,該研究納入2647例患者,結果發現,比索洛爾相較於安慰劑可以降低34%的死亡風險(HR=0。66,95% CI,0。54-0。81),而HR的點估計值同樣落在首個研究中HR值的95%的置信區間內。

總之,在一項臨床試驗中,如果因為樣本含量太小而導致無法發現原有的治療效應,宜將其稱為“非確認性的”而不是直接定性為“陰性的”研究。足夠的把握度需要充分的終點事件數,這可以透過招募更多的患者、納入高危患者、延長隨訪時間、納入出現頻率更高的終點以組成複合終點等,達到這一目的。

補充:

把握度不足導致試驗遺憾錯失陽性結果的研究比比皆是,而造成把握度不夠的主要一個原因,就是在研究過程中對療效進行了過於樂觀的估計,肺癌領域,Pembro-RT研究是其中的典型代表。該研究探索了在免疫治療的基礎上,給予低劑量放療能否改善患者預後,作者假設,聯合低劑量放療可以將12周的ORR由20%提高至50%(這是一個非常激進的假設),即提高2。5倍,此時的樣本含量為74例患者。最終結果發現,兩組12周的ORR分別為18%和36%,實際提高了2倍。雖然資料很漂亮,但是,由於樣本含量不足,把握度不夠,最終,P=0。07;而中位PFS雖然分別為1。9個月和6。6個月,但是,差異同樣無統計學意義(P=0。19)。在臨床試驗中,因為把握度不足而導致假陽性結果出現的例子不勝列舉。

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

Pembro-RT

研究的

PFS

三、主要研究終點是否合適

(

被準確定義

)

複合終點的應用雖然可以提高終點事件數,但不一定提高研究的把握度。例如,在比較吡格列酮和安慰劑在II型糖尿病患者中的療效及安全性的PROactive研究中。研究者將死亡、心肌梗死、卒中、急性冠脈綜合徵、血管內手術和小腿截肢組成了研究的複合終點。最終,吡格列酮組和安慰劑組分別有514例和572例患者出現終點事件,P=0。08。但如果採用由死亡、心肌梗死及卒中組成的更加傳統的複合終點,則兩組分別出現301例和358例終點事件,P=0。03。因此,將其他終點引入組成複合終點,只是納入了額外的隨機噪音,稀釋了真正的獲益。

臨床試驗的成功有時候取決於對主要終點的清晰定義及準確判定。例如,在CHAMPIONPLATFORM試驗中,研究者分析了坎格雷洛與氯吡格雷在接受PCI患者中的療效,但研究因中期無效性分析被終止,因為在由死亡、急性心肌梗死及48小時缺血性血管再生組成的複合終點上,坎格雷洛並未帶來獲益。但是,該研究中,對於圍手術期心肌梗死的定義無法有效識別出那些PCI後,很快出現心梗且標誌物陽性的患者。因此,對於心肌梗死更加準確的定義可能會帶來陽性結果,因此,在後續的CHAMPIONPHOENIX試驗中,對於標誌物波動的解讀更加嚴謹,謹慎的判斷圍手術期心肌梗死的發生。最終發現,坎格雷洛相較於氯吡格雷,48小時主要終點(死亡、心梗、支架血栓及缺血導致的血管再生)風險降低22%,並使得FDA及EMA批准了該藥物的上市。

補充:

臨床試驗中,如何選擇一個合適的主要研究終點是非常重要的環節,這一點,筆者之前已經專題推送過。點選:ITT分析、PP分析、TTF:臨床試驗中的這些概念到底是啥意思?

四、研究物件是否合理?

當研究出現陰性結果時,一個恰當的問題是:納入的研究人群是否合理?例如,伊伐佈雷定在穩定性冠心病患者中的兩項研究BEAUTIFUL和SIGNIFY並未展示任何獲益,但是,SHIFT研究則探索了該藥能否降低心血管死亡風險及心衰導致的住院,結果發現,這一符合風險降低26%。因此,基於藥物機制及前期研究,為瞄準目標人群開展確認性試驗提供了重要基礎。

補充:

在腫瘤精準治療理念的影響下,合理選擇治療人群十分重要。因為納入人群不合適而導致研究遭遇滑鐵盧的例子同樣很多。代表性研究就是KeyNote-024研究和CheckMate-026研究在2016年ESMO年會的那場“天王山之戰”。兩者均是探索針對PD-1的免疫檢查點抑制劑——K藥和O藥對比一線化療在晚期NSCLC患者中的療效及安全性,不同的是,K藥的KeyNote-024研究聚焦的是PD-L1≥50%的患者,而O藥胃口更大,瞄準的是PD-L1≥5%的患者,但是,最終結果是冰火兩重天。K藥獲得陽性結果,並順利開啟晚期肺癌的一線治療適應症,而O藥就此錯失一線。

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

KeyNote-024

研究和

CheckMate-026

研究

五、治療劑量是否合理?

在臨床試驗中,確認一款新藥的合理的給藥劑量是非常具有挑戰的事情。回過頭來看,TARGET及MOXCON兩項研究的失敗可能與錯誤的劑量選擇有關——前者藥物劑量太低,後者太高。但即使有新的體外及II期劑量探索資料,該藥在開展後續臨床研究的可能性也不大。某些研究透過設立三個組,包括兩個不同的劑量組來最大限度的減少這一風險。例如在PEGASUS-TIMI54研究中,在為心梗患者帶來長期獲益方面,60mg替格瑞洛的應用擊敗了90mg劑量組和安慰劑組。

補充:

合理的治療劑量將為後期III期臨床研究的開展奠定堅實的基礎。過低的劑量可能會影響療效,這點顯而易見,但是,過高的劑量也並不一定導致療效的增加,因為,過高的劑量可能帶來明顯的不良反應,導致患者頻繁出現給藥中斷、給藥終止及給藥延遲,從而影響療效。這一點,代表性的研究為ASCEND-4研究。該研究探索了對於ALK融合陽性的患者,塞瑞替尼與標準化療的比較,結果,塞瑞替尼在750mg空腹服用的情況下,3度級以上不良反應發生率達到78%,比化療組的62%還要高,這也是為數不多的靶向治療毒性高於化療。塞瑞替尼組,80%的患者因不良反應需要劑量調整或者治療中斷,而這一比例在化療組為45%,這種頻繁的劑量調整也直接影響了塞瑞替尼的療效,導致其中位PFS僅為16。6個月,遠遠低於其他二代治療藥物。雖然塞瑞替尼後續開展了不同劑量的探索,並發現450mg隨餐服用可以降低不良反應並提高療效,但這畢竟只是小樣本探索性研究,而不是確認性結論。這也從側面提示,塞瑞替尼在進行劑量探索時候存在一定的缺陷。

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

ASCEND-4

研究的

PFS

六、研究執行過程是否有缺陷?

不能高質量的執行研究方案有可能導致治療效應被稀釋,甚至完全消失。例如,在六個國家中進行的TOPCAT研究探索了安體舒通vs。安慰劑在保留左心室射血分數的患者中的療效及安全性,其主要研究終點的HR值為0。89 (95%CI,0。77-1。04)。但是,在俄羅斯及喬治亞患者中,很少出現終點事件,提示可能在這兩個國家中,研究方案並未被高質量執行甚至納入了不符合入組標準的患者。如果將分析人群侷限在其他4個國家,則HR值為0。82 (95%CI, 0。69-0。98; P = 0。026)。基於這種事後分析能否提供足夠信服力的證據,在這部分患者中是否應該推薦安體舒通,目前尚有爭議。

補充:

沒啥好補充的。高質量的執行是臨床研究的根本之一。沒有高質量的執行及質控,一切免談。

七、非劣效結論有意義嗎?

當新的治療手段相較於陽性對照沒有達到優效性標準時,能否得出非劣效結論呢?需要注意的是,只有當新的治療手段具有某些獨特的優勢(如更安全、更微創)的時候,這種非劣效結論才可取。但此時,非劣效界值需要提前確定。例如,VALIANT研究探索了併發心肌梗死的患者,接受纈沙坦、卡託普利或兩者聯合治療的療效及安全性,研究並未發現纈沙坦在降低死亡方面的獲益(HR=1。00;,97。5%CI, 0。90-1。11;P=0。98),但是,由於其置信區間上限並未超過預設的界值1。13,因此,允許研究者得到纈沙坦非劣效於卡託普利的結論。因此,對於那些接受卡託普利治療後出現咳嗽等難以耐受的不良反應的患者,纈沙坦提供了一個替代選擇。

補充:

這一部分筆者專門諮詢了統計學方面的專業人士。這一部分的內容似乎欠妥。臨床上,通常可以進行非劣效轉優效設計,而基本不會在優效結論沒有達到時,轉為非劣效,這樣有“先打靶,在確定靶子的位置”的嫌疑。

八、亞組分析是否有積極訊號?

對主要研究終點為陰性的臨床試驗進行亞組分析是合理的,但是得到的結論往往並不可信(除非有強烈的生物學依據支援這一發現)。通常進行亞組分析時候,研究者並未進行多重性考慮。即使經過互動性檢驗發現有統計學意義,這樣的結論充其量只能用來提出研究假設。實際上,我們在本領域很難找出哪個確認性臨床研究,是基於陰性臨床試驗中的陽性亞組分析得到的。

但是基於亞組分析確實啟動了一項多中心臨床研究。SYNTAX研究探索了對於有三支或者左主幹病變的患者,PCI vs。冠脈搭橋的療效及安全性,最終發現,整體人群中,冠脈搭橋的效果更好,但是,在亞組分析中,左主幹病患的患者,PCI的療效及安全性是可接受的(甚至可能是更優的)。這項事後分析結果使得研究者開啟了EXCEL研究,以比較在左主幹病變的患者中,PCI與冠脈搭橋患者中的療效,研究結果預期於2016年結果。

補充:

關於亞組分析,筆者也曾經進行專題推送。點選:亞組分析到底靠譜嗎?從FLAURA研究談起

九、次要研究終點有陽性發現嗎?

通常情況下,當主要研究終點為陰性的時候,次要研究終點的分析就是探索性的,相應的,監管部門也就當然不會基於此批准藥物上市。但是,當次要研究終點的效力足夠強的時候,也可能會影響臨床實踐。例如,ASCOT研究比較了氨氯地平和阿替洛爾在高血壓患者的應用,研究的主要終點是非致死性心肌梗死和致死性冠脈疾病組成的複合終點,HR為0。90 (95%CI,0。79-1。02;P = 0。11)。但是,在卒中、心血管事件、全因死亡及新發糖尿病預防方面,氨氯地平展示了更好的療效(P值分別為P

十、改變分析方式有幫助嗎?

協變數分析

對那些可能影響主要研究終點的協變數進行分析相較於不分析,可輕微提高研究的把握度,但是,哪些變數需要被納入需要事先明確說明,否則最終結果就只能是“有趣的”及“探索性”的。

例如,SPARCL研究探索了阿託伐他汀vs安慰劑在預防卒中及短暫性腦缺血發作中的療效及安全性,未進行多因素校正的P值為0。05,透過預設的多因素校正,對地理區域、年齡及性別進行校正後,HR=0。84(95% CI, 0。71-0。99; P = 0。03),但哪一個是預設的主要分析目前並不清楚。在研究假設模稜兩可的情況下,嚴守0。05的顯著性水準是非常重要的,否則,同行會質疑,這是否是一個“陽性”結果?對於這種情況,一個合理的結論是:治療有獲益,但是證據級別較低。

實際治療集與符合方案集

基於患者實際接受治療方案進行分組的意向性分析(ITT分析)是療效分析的主要方法(

筆者注:

經過與統計學專業人士確認,原文對ITT的定義有錯誤,ITT分析是基於患者隨機化的結果進行分組,而不是基於實際治療方案進行分組)。當ITT分析可能未達到統計學顯著性,此時,實際治療集與符合方案集可能與真相更加接近,但是,基於這兩個叢集進行分析有可能引入偏倚,因為對治療方案依從性差或接受交叉治療的患者可能和整體人群相比,存在不一樣的預後,因此,這一分析很少會影響到基於ITT分析得到的結論。但是,基於實際治療情況進行安全性分析是合理的。

STICH研究探索了對於存在左心功能不全的患者,心臟搭橋手術與內科治療的療效及安全性,在ITT人群中,經過中位4年的隨訪,患者全因死亡風險降低14%(HR=0。86,,95%CI, 0。72-1。04; P =0。12),但是,在實際治療集與符合方案集分析中,心臟搭橋術可更加顯著的降低患者死亡風險(P值分別為<0。001和P=0。005)。但是,最終的結論仍然是兩組之間的主要研究終點無統計學差異。在ITT分析人群中,心血管相關的死亡及住院風險顯著降低。此外,經過10年的隨訪後,心臟搭橋較內科治療顯示了可降低死亡風險(HR=0。84,95% CI,0。73-0。97; P = 0。02)。因此,完整的資料支援心臟搭橋手術是在左心功能不全的患者中具有重要地位。

與此相關的另外一個問題就是如何解釋患者存在較高交叉率的現象。例如,BARI 2D研究分析了II型糖尿病患者中,冠脈血管重塑與內科強化治療的療效及安全性,由死亡和主要心血管事件組成的複合終點中,兩組的5年結局無差異(P值分別為0。97和0。70),但是,研究中,42%的強化內科治療的患者接受了冠脈血管重塑治療,這就對單純強化內科治療的療效提出了疑問,雖然這種交叉是保守治療的一部分。當交叉比例過高的時候,對結論提出一定的質疑是合理的。

重複事件分析

在涉及慢性疾病的研究中,傳統的研究終點聚焦在首次出現事件的時間而忽視了後續的重複的事件。這可能會導致統計效能的丟失並低估治療效果。例如,CHARM研究分析了坎地沙坦或者安慰劑在保留左心室射血分數的心衰患者中的療效及安全性,在由首次心衰惡化導致的非預期入院、心血管事件導致的死亡所組成的複合終點中,HR為0。89 (95%CI, 0。77-1。03; P = 0。12)。若納入因心衰導致的重複住院後,HR值降低為0。75 (95% CI, 0。62-0。91,P=0。003)。最後,作者認為,在心衰相關的臨床試驗中,“重複事件”應當被常規納入研究終點。

補充:

關於ITT分析及PP分析等,筆者在之前的推送中有過涉及(ITT分析、PP分析、TTF:臨床試驗中的這些概念到底是啥意思?)。通常情況下,ITT分析更為保守,而PP分析可能會誇大藥物療,兩者通常相互補充。但是,ITT分析由於嚴格遵循了隨機化原則,因此是療效分析的金標準。肺癌中,極少出現ITT分析與PP分析結果不一致的情況,典型例外是JUST研究。該研究於2018年7月發表於JTO雜誌,探索的是新型化療藥物奈達鉑與順鉑聯合多西他賽在中國人群中的療效及安全性。在ITT分析中,奈達鉑和順鉑組的中位PFS分別為4。63個月和4。23個月,P=0。056,差異無統計學意義。但是,在PP集中,兩組中位PFS分別為4。63個月和4。27個月,P=0。039。由於在研究方案中已經規定,療效基於ITT人群進行分析,因此,作者在最終結論中也明確指出,兩組的PFS無差異,即結果以ITT分析為準。

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

JUST

研究中的

ITT

分析及

PP

分析資料

十一、有更充分的外部資料嗎?

有前期充分的資料、統計效力足夠的前提下,得到一個陰性結果總是令人驚訝的,此時,前期研究的證據強度及研究質量需要被仔細審查。首先,非隨機對照研究中的比較、替代終點的應用都會降低證據的強度。納入相似研究人群的類試驗及Meta分析可能會更有價值。

例如,ASPEN研究比較了在II性糖尿病患者中,阿託伐他汀vs。安慰劑的療效。在由心血管相關事件組成的複合終點中,HR=0。90(95% CI, 0。73-1。12; P=0。34)。考慮到其他相似研究得到陽性結果,該研究的結論是令人失望的。但是,在更大樣本含量且設計相似的的III期CARDS研究中,HR=0。63(95%CI, 0。48-0。83; P=0。001),基於兩項研究的Meta分析同樣得到陽性結果。兩者結論的不一致並非大問題,因為其95%的置信區間是重疊的,因此,ASPEN研究可能隨機化出現問題,導致其不夠走運而已。

需要注意的是,基於Meta分析得到的陽性結果需要被謹慎的解讀,因為納入人群的選擇、治療方案、研究終點的定義、試驗的設計及執行均是不完全一樣的。總體來說,來自設計良好的隨機對照研究的資料比小樣本的Meta分析得到的陽性結論更加可信,當兩者結論明顯相反時,則需要進一步的研究來解決這一問題。

補充:

充分的外部證據是註冊研究重要的證據,當然如果一項研究設計嚴謹、執行質量很高,同時得到的是明顯的“陽性”結論,這種情況下,外部證據可能並不是那麼重要。但是,當單臂設計、加速批准或者如JUST研究一樣,ITT分析與PP分析得到相反的結論,此時,充足的外部證據就顯得尤為重要。還是以JUST研究為例子,其實,從嚴格的統計學意義來講,ITT分析中的療效是陰性的,但是,奈達鉑仍然獲得了肺癌的適應症,很重要的一個原因是在日本人進行的III期臨床研究——WJOG5208L研究,得到了OS的陽性結果,兩組分別為13。6個月和11。4個月,P=0。037,因此,這一研究結果為JUST研究提供了充分的外部資料,考慮到JUST研究中,PP分析仍然是陽性結果,因此,ITT分析的陰性結果,有可能只是不走運而已。

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

WJOG5208L

研究的主要終點——

OS

十二、是否有充分的生物學依據支援這一治療?

臨床試驗儘量遠離那些生物學機制尚有爭議的研究領域。幾乎任何一項確認性III期臨床研究開展之前都會積累大量的動物實驗及臨床前證據。很多大型臨床試驗的失敗已經帶來了足夠多的教訓。例如,透過調節高密度脂蛋白的水平,降低心血管事件發生率似乎是一個有前景的治療策略,但目前沒有任何一項臨床試驗為這一假設提供充分的循證依據。事實總是不遂人願。如果臨床試驗的失敗與方法學的缺陷無關,那麼就該想一想:是不是有充分的生物學依據開展這項研究呢?

補充:

一切沒有生物機制作為基礎的統計分析都是耍流氓。

這十二個問題是我們面對主要結果為陰性的臨床試驗時需要考慮的問題,當然研究者的解讀需要非常謹慎,深思後向以下三個方向考量:

其一,宣佈為陽性結果。

只有在極端特殊的情況下,才會把一項未達到預設的主要研究終點的研究宣稱為陽性結果。當主要研究終點為陰性,但有重要意義的陽性結果被發現時,下表列出的5項研究提供瞭如何描述研究發現的範本。但是,這種發現雖然可以改變指南,但幾乎不會改變監管部門的決定。

“陰性”臨床試驗如何解讀?看看NEJM怎麼說

當然,CAPRICORN研究是個例外。該研究評估了心梗後伴有左心功能不全的患者,卡維地洛vs。安慰劑的療效及安全性。研究並未達到由死亡和住院組成的符合終點(HR=0。92;95% CI, 0。80-1。07; P = 0。30),但是,單純看全因死亡風險,卡維地洛提供了相關獲益(HR=0。77; 95% CI,0。60-0。98; P=0。03),在與監管部門溝通後,卡維地洛獲得FDA的批准。可能全因死亡風險是其原始的主要終點(研究期間對研究終點進行了不走運的修訂),且有外部證據支援β受體阻斷劑在這部分患者中的獲益。

其二,改善後續臨床研究的設計。

通常,申辦方在啟動一項臨床研究前,往往會獲得充分的依據來支援研究的開展。因此,當結果為陰性時,申辦方可能會再開展一個臨床研究,此時,需要考慮調整治療方案、修訂研究人群、改變研究終點及增加樣本含量並提高研究的整體執行質量。但是,這一困難且耗資不菲的決定,前提是基於務實的判斷而非盲目的樂觀。

例如,在SYMPLICITYHTN-3研究中,腎臟神經阻斷並不能控制難治性高血壓。對這一結果的合理解釋包括:混雜的研究人群(部分研究人群可能對該療法本身就不太可能產生響應)、能量遞送不足、治療藥物的改變、對向均數迴歸沒有有效控制。在開展另外一個大型試驗之前,在未口服抗高血壓患者中進行的機制研究正在進行,以判斷這一治療手段是否湊效。

其三,宣稱治療無效,果斷放棄。

一項隨機對照研究的最終目的是區分治療是否有效,無效更為常見。因此,當一項研究並無獲益訊號,甚至有安全性問題,果斷放棄是明智的選擇。血栓吸引術在急性心肌梗死的患者中是一個很好的例子。基於幾項研究得到的有爭議的結果後,兩項大型隨機對照試驗發現,該治療手段並不能給患者帶來獲益。

本文中,我們提出了當一項研究未達到統計學顯著性水準的時候,研究者需要考慮的幾個問題,這有助於判斷新的治療策略是否仍然具有價值。最終的結果包括基於完整的證據,宣稱獲得“成功”、改善後續研究的研究設計、接受治療無效的事實。當然,最好的做法還是事前對研究進行完整的規劃。研究前有充分的病理生理學及其他理論依據,研究中選擇適合的人群、恰當的終點、足夠的樣本含量、合理的終點定義、謹慎的劑量確定,失敗後批判性的對研究進行解讀,研究者最終會得到一個合理且明確的結論。

精讀完全文,筆者最大的感觸是《新英格蘭醫學雜誌》的文章確實極具啟發性。從事後的角度看,文章為我們解讀陰性結果提供了重要的啟發,而從事前的角度看,這何嘗不是我們在設計臨床試驗的時候,需要注意的“雷區”和需要吸取的教訓呢?

本文首發:腫瘤論壇 作者 上海胸科 張波

相關文章

頂部