方法新論 | 胡悅：實驗室實驗：政治科學研究的一種有效方法？

實驗室實驗：政治科學研究的一種有效方法?

提要：

目前，因果推斷已成為政治科學研究的重要發展方向。在開展因果推斷的各類方法中，實驗室實驗又以其設計嚴格遵循因果邏輯而被譽為因果推斷的

“理想模式”。本文系統闡釋了實驗室實驗的設計規範和實施邏輯，展現了這一方法在政治經濟學、政治心理學、政治行為學等領域的應用模式和亮點，並討論了實驗室實驗方法的研究效度“內高外低”這一常見認識的片面性。本文指出，基於科學研究方法的效度理論，實驗室實驗設計可以實現內部效度和外部效度“雙高”，並進一步討論了達到這一目標所需遵循的設計要求和技術條件。本文還結合中國政治學研究的實際指出該方法在推進中國學術界在政治行為、政治認知等方面的研究潛力，並闡明瞭它與前沿資料科學和大資料技術相結合的發展路徑。

作者簡介：

胡悅，清華大學社會科學學院

文獻來源:

《國外理論動態》2021年第6期

*Political理論志週末版正式改版，週六僅推送一篇在社會學、政治學、國際政治和政經學科具有一定代表性意義的最新研究成果

本文作者胡悅

一、引言

政治科學發展至今，始終伴隨著對研究設計的科學性的探索和對研究方法的革新。進入21世紀以來，政治科學研究明顯呈現出由相關性研究轉向因果性研究的趨勢。政治學者們愈發不滿足於僅對各種要素間的關係強弱進行確認，而逐漸投身於對變數間的因果效應以及機制的探討之中。諸如時間序列分析、斷點回歸、雙重差分法等研究方法也得到快速傳播和廣泛應用。其中，實驗法這一源於自然科學的因果推斷方法，因其設計邏輯明確、科學性強，尤為引人注目。迄今為止，已有多本專著介紹和討論實驗方法在政治學領域的應用。在2016—2020年間，政治學三大國際頂刊《美國政治科學評論》（American Political Science Review）、《美國政治科學雜誌》（The American Journal of Political Science）以及《政治學雜誌》（Journal of Politics）上發表的研究和應用實驗方法的文章也已多達 268 篇。

與此同時，中國國內研究者對實驗方法也表現出了極大熱情，國內期刊發表了許多引介和應用這一方法的文章。但有趣的是，現有文章多集中於調查實驗（survey experiment）和田野實驗（field experiment）這兩種從實驗方法派生出來的模式；而對實驗方法的根本模式——實驗室實驗（laboratory experiment）——的討論和應用卻並不多見。人們對實驗室實驗仍存在一些常見的認識謬誤。特別是，很多教科書和研究設計者認為，實驗室實驗“雖然內部效度高，但外部效度低”，因而無法真實反映政治現實並得出對政治實踐有借鑑意義的結論。殊不知，實驗室實驗的外部效度並不一定低於其他方法，同樣，也並不是所有實驗都能保證內部效度高。

針對這些常見的謬誤，本文系統討論了實驗室研究設計的基本邏輯和原則，以期展示其在政治實證研究領域的應用潛力。文章著重討論了

兩個基本問題：

第一，

實驗室政治研究是如何對政治現象或因素展開因果推斷的？

第二，

研究者應如何正確理解實驗室實驗的效度優勢並在設計中加以應用？

本文提出，根據研究效度理論，那種認為實驗室實驗的效度“內高外低”的看法並不全面。

雖然這種方法確有其侷限性，但只要精心設計、妥善實施，仍能為因果推斷研究提供強有力的支援

，是值得在政治科學乃至整個社會科學領域進行推廣的一種重要方法，在有關中國政治的實證研究中更是具有廣泛的應用空間。同時，本文也提出，方法論學者也應在清楚認識實驗室實驗的優勢和侷限的基礎上，不斷與資料科學、大資料技術等前沿理論和方法相結合，以擴大實驗室實驗的應用領域，推動其為實際政治問題研究做出貢獻。

二、實驗邏輯與政治學實驗室實驗

實驗是建立在遵循“反事實”（counterfactual）邏輯之上的因果推斷方法。實驗室實驗則是依照該邏輯在特定範圍（實驗室）內構架反事實對照的一種研究設計模式。因此，理解實驗邏輯是理解和應用實驗方法以及實驗室實驗模式的重要前提和基礎。

(一) 實驗邏輯

實驗邏輯是在自然科學研究中常見的研究設計邏輯。耶日·內曼（Jerzy Splawa Neyman）和唐納德·魯賓（Donald Rubin）將其進行數學規範化，提出了因果推斷的重要理論——

內曼—魯賓因果理論

（Neyman－Ｒubin Causality Theory），也被稱為

魯賓因果模型

（Rubin Causality Model，RCM）。這一模型被引入社會科學後，它很快就成為該領域進行因果關係研究的基礎性理論。魯賓因果模型將作用因素或干預因素（treatment variable）對個體 i 的因果效應定義為該因素存在時發生的結果Y

與它不存在時可能發生但實際並未發生的結果（即反事實結果）Y

之間的差異δ

，即

－Y

然而，這一定義在實證層面不是自足的，需要依靠特殊的假定才能成立。這是因為在實際觀察中，干預因素要麼存在，要麼不存在，所以研究者不可能同時觀察到 Y

和 Y

。在這種情況下，干預因素對單一個體的因果效應δ

是無法被直接觀測到的。因此，研究者只能謀求在群體層次上對因果效應進行估測。而若想這種估測在統計學上可行，就需要引入一個關於個體的強假定———魯賓稱之為

“個體處理穩定性假定”

（Stable Unit Treatment Value Assumption，SUTVA）。“個體處理穩定性假定”規定，干預因素對群體內個體的作用具有針對性和同質性。此假定之所以是一個強假定，在於它對觀測因果效應的物件和環境都有嚴格的限制。首先，它要求干預因素具有針對性，即干預因素只會改變單一個體，而與其他個體是否受到作用無關。其次，對單一個體的這種作用對於每個個體的影響又必須是同質的，差別僅是個體受影響的大小而已。唯有這樣，我們才能合理運用統計學，透過對多個受干預個體的觀察來估測效果，並將其與未受干預群體進行比較。再次，“個體處理穩定性假定”要求，干預因素髮生作用的方式必須是嚴格一致的。譬如，在估測資訊對選民決策的影響時，如果選民獲得資訊的方式存在差異性（比如，有的是道聽途說聽來的，有的是從報紙上獲悉的），那麼其結果則可能不是由同一種因果效應導致的，因而也就不能將它們放在一起來估測因果效應。從次，干預因素的存在與否也必須是可被觀察到的。只有同時獲得干預因素存在和不存在時的資料，才能對觀察結果進行比較，進而推斷該因素的因果效應存在與否以及其大小和方向。最後，干預因素的作用必須出現在實驗物件（subjects，也稱實驗被試）作出決策和形成行為結果之前，而不能同時或在其

之後發生。譬如，在測量資訊對選民的投票意願產生的效應時，如果選民在不斷接受資訊的過程中就已經決定了是否投票，而非等到獲得所有資訊後才作出決定，那麼研究者則無法根據魯賓因果模型來推斷資訊對選民的意願產生的因果效應。這些嚴格的限制意在確保因果效應的可觀察性，但這樣一來，傳統的社會科學研究方式便很難完美地實現這種因果推斷了。因為，即使在所謂的“自然實驗”（即以特定時間點為界限，比較該時間點之前與之後的差別，多用於政策研究）場景中，也很難保證干預因素對單一個體的作用不會影響到同一目標人群中的其他成員。而在實驗邏輯基礎上發展形成的實驗論證（experimental reasoning）方法則能很好地兼顧這些限制性條件。其中，又以

實驗室實驗能最大限度地滿足“個體處理穩定性假定”的各項要求，併兼顧了因果推斷的準確性和可操作性。

(二) 實驗室實驗

實驗室實驗是實驗邏輯在實證研究中最流行的三種應用形式之一，另外兩種是田野實驗和調查實驗。相比田野實驗和調查實驗將被試放置於其生活的自然環境中，實驗室實驗對實驗場地和時間有著更嚴格的控制，通常是在獨立的實驗室中進行。而且，整個實驗過程都必須在研究者的全程監控和指導下完成。從這一點看，實驗室實驗更接近自然科學的實驗模式。

當然，

在實際操作中，這三種實驗方法之間也並非界限分明。

特別是在社會科學研究中，實驗室實驗往往並不需要專門的實驗室；教室、活動室或其他獨立空間都可以成為實驗場所。而對被試的個人資訊及實驗效果的收集也經常採用問卷調查的方式。因此，

實驗室實驗與其他兩種實驗方式的區別從表面上看是實驗的空間和時間上的選擇差異，但它在本質上其實體現了研究者對於時間和空間所包含的資訊的理解與態度

。

在田野實驗和調查實驗中，研究者刻意將被試放置於熟悉的環境中，期望他們的反應更接近於其在現實生活中的反應。

而實驗室實驗則強調控制環境及其他非實驗要素，以求最大限度地排除干擾因素，從而實現對干預因素的因果效應的準確測量

。

實驗室實驗在設計上可能千差萬別，在被試的選擇以及干預過程的設定上也沒有固定程式，但無論如何，它仍有一些必須遵守的基本設計原則。這些設計原則主要包括：首先，實驗的目標人群以及核心干預因素必須明確，然後據此決定被試的來源及具體的干預模式。其次，研究設計必須充分考慮對可見的干擾變數的控制，並透過隨機分配控制組和實驗組等方法對不可見和難以控制的干擾變數進行進一步的剔除。這裡需要強調的是，

隨機分配在實驗室實驗中扮演著非常重要的角色，但它並不是排除干擾變數的萬靈藥

。這一點將在後面討論實驗室實驗的效度時詳加闡述。最後，研究者需要對控制組和實驗組在接受干預因素影響之前與之後的態度和行為表現根據統計原則進行跨組比較（以及獲得 Y

－Y

的群體期望值），據此判斷干預因素與行為態度變化之間是否存在因果關係。

(三) 實驗室中的政治科學研究

實驗在政治科學研究中並不是新方法。它的應用最早可以追溯到1926年哈羅德·戈斯內爾（Harold Gosnell）對芝加哥市長選舉的研究。但該方法，尤其是實驗室實驗一直到1950年代才受到學界普遍重視。彼時行為主義革命風起雲湧，實驗政治學的發展也迎來了第一個分水嶺。一方面，相關實驗研究成果開始出現在《美國政治科學評論》、《衝突解決雜誌》（Journal of Conflict Resolution）等主流政治學刊物上。實驗室實驗也開始被政治學者用於對公共產品分配和國家間博弈等議題的研究。但另一方面，仍有相當一部分學者堅持認為，實驗室實驗“過於依賴人工設計，而且被試人群不足以代表任何目標人群”，故而不應在政治科學研究中使用。一直到1970年代，對實驗室實驗和實驗政治學的排斥才隨著政治心理學的興起而有所緩和。1970年，著名的《政治學實驗研究》（Experimental Study of Politics）創刊。在隨後的幾十年中，基於實驗室實驗方法的政治科學研究進入穩步發展階段，並在選舉行為、公共輿論、政治傳播等諸多研究領域得到廣泛應用。

當前的實驗政治學已經形成三種獨特的模式：政治心理學模式、政治經濟學模式以及統計學模式。

其中，實驗室實驗在政治心理學模式和政治經濟學模式的研究中應用較多。統計學模式研究對被試樣本的規模和成分都有要求，因此常常採取調查實驗或田野實驗的形式。

政治心理學實驗

多用於考察特定因素對個體態度或決策產生的因果效應，其通常模式是將實驗物件集中到一個封閉和獨立的實驗場所，在隨機分配控制組和實驗組後，透過精心篩選和製作的干預資訊（如政治新聞或候選人背景材料等）將被試帶入一個想象性情境（hypothetical situation）中，並要求其在這一情境中作出特定判斷或決策（比如，是否支援某項政策或某個候選人）。研究者再透過對比控制組和實驗組的決策結果來考察干預資訊是否對被試造成影響。斯蒂芬·安索雷布哈爾（Stephen Ansolabehere）和尚託·延加（Shanto Iyengar）對於負面政治新聞的研究即是這種應用的一個典型案例。研究者在1990年美國加利福尼亞州州長選舉期間給實驗組和控制組同時播放了一條關於候選人是否同意在該州進行近海石油開採的新聞（近海石油開採會給當地帶來環境隱患）。研究者嚴格控制實驗室環境，以保證被試之間不會相互干擾，且實驗組和控制組接受干預資訊時的視聽背景都是相同的。唯一的不同之處在於，給控制組提供的新聞中包含著“同意”、“保護”等正面詞彙，在給實驗組提供的新聞中，這些正面詞彙被替換成“反對”、“摧毀”等負面詞彙。在兩組人同時接受資訊後，被試被要求報告其是否參與此次州長選舉投票。透過對兩組人的比較，研究者發現實驗組更加不願參與投票，因而佐證了負面新聞在政治傳播中的反動員效應（demobilizing effect）。

政治心理學實驗通常考察單一因素對被試的心理影響，其設計通常不涉及場景變化或被試的多次選擇。

相比之下，

政治經濟學實驗則對個體間的互動以及多次選擇策略更感興趣。另外，政治經濟學實驗也較少使用模擬現實的想象性情境或人為資訊，而是根據形式模型及其數理推論進行實驗設計。

比如，安娜·鮑希（Anna Bassi）等人在研究選民身份與投票傾向時，首先對選民身份比例對投票的影響進行了形式模型推演，然後依此將60名被試分成12個組進行投票遊戲，對形式模型得出的每一種可能結果進行檢驗。實驗中，被試被給予一種選民身份，該身份對應一個代表此身份的候選人。被試被告知其參與實驗獲得的獎勵將與選舉結果密切相關。在整個實驗中，每組被試成員的身份、互動形式以及最終獎勵完全根據之前形式模型中涉及的條件進行部署，甚至區分了被試對同伴的身份資訊的知悉程度。此外，被試完全瞭解，他們進行的所謂投票並不需要藉助任何現實的投票經驗，也不會對政治現實有任何影響。

當前實驗政治學的主戰場是政治行為研究領域——尤其是對選舉行為的研究。

除了上面提到的例子，戴安娜·穆茨（Diana Mutz）透過政治心理學實驗探討了政治資訊的全面性對選民傾向產生的因果效應；蘇加託·達斯古普塔（Sugato Dasgupta）和肯尼思·威廉姆斯（Kenneth Williams）透過政治經濟學實驗研究了民意測驗對選民選擇候選人偏好的影響；傑弗裡·蒙戴克（Jeffery Mondak）及其同事在1996—2006年間透過一系列政治心理學實驗系統考察了候選人資質對選民投票行為的影響。這些都是實驗室實驗在政治學領域得到應用的典型範例。隨著認可度的提高及其方法的進步，實驗室實驗也被逐漸應用於政治行為研究之外的領域。政治經濟學實驗模式的應用在國際關係學領域已經得到認可，該領域的研究者透過個體和組別互動來研究國家間的博弈關係。譬如，莫頓·多伊奇（Morton Deutsch）透過互動實驗對三種軍備競賽策略的考察，以及弗朗西斯·貝爾（Francis Beer）及其同事對和平條約及戰爭博弈的研究等。政治心理學實驗也在國際關係研究中得以應用，例如尼西米·傑瓦（Nehemia Geva）、亞歷克斯·明茨（Alex Mints）及其同事運用實驗對民主和平論、外交決策的研究等。在比較政治學領域，既有唐娜·巴里（Donna Bahry）、阿爾方·範德克拉格特（Alphone van de Kragt）等學者結合博弈論和政治經濟學實驗來研究公共產品的分配過程及其影響因素，也有埃弗倫·佩雷斯（Efrén Pérez）等學者透過政治心理學實驗對語言政治、性別議題等進行探討。

三、效率最大化？實驗設計的規範與謬誤

實驗室實驗在政治學領域得到越來越多的應用，併成為推進該領域因果關係研究的重要手段。然而，對這一方法的質疑也從未停止過。例如，一些研究者將實驗方法視為因果推斷的“理想模型”，但也有諸多批評者認為，於規定時間在封閉實驗室內對一個方便樣本進行的實驗研究並不能為人類社會中持續的、複雜的政治決策和行為提供可靠證據。簡言之，實驗室實驗在政治科學研究方面的效度是值得懷疑的。

(一) 什麼是研究效度

包括政治學家在內的社會科學工作者長期以來以效度（validity）來衡量特定分析方法是否能夠為驗證理論推斷提供可信證據。多數學者認可唐納德·坎貝爾（Donald Campbel）對效度的如下定義：

一種實證研究設計或方法的效度是指基於該設計或方法作出的知識推斷與真實情況具有的近似性 (approximate truth)程度，即我們能在多大程度上相信實證推斷能夠反映人類社會的真實規律。

效度又可區分為

“內部效度”(internal validity)

和

“外部效度”(external validity)

。其中，內部效度是指基於實證研究的知識推斷與目標人群的真實態度或行為規律的近似程度，而外部效度則指實證推斷在多大程度上能適用於目標人群以外的其他人群。

在給出基本定義的基礎上，坎貝爾又將內部效度細化為三個部分：

建構效度(constructive validity)、因果效度(causal validity)和統計效度(statistical validity)

。建構效度涉及實證推斷的概括性，旨在評價一種研究設計是否能合理且有針對性地評鑑目標理論。因果效度類似於經濟學中的“識別問題”（identification problem），用以考察實證設計是否能有效排除干擾因素，為確定因果效應或機制提供準確證據。統計效度指的是，研究的核心因果因素之間在實證層面是否具有顯著且穩定的統計關係。對統計效度的最常見的檢驗方式是對同一目標人群樣本進行重複檢驗。有必要指出的是，效度是一個整體概念，上述分類只是為了方便研究者從不同側面展開考察。因此，各種效度之間不是孤立存在的。比如，研究設計的建構效度高，與理論相切合，在統計層面上因果變數的關係才能穩定，統計效度才能高。而統計效度又與研究設計是否有效地控制了干擾變數、達到了高因果效度緊密相關。另外，內部效度是外部效度的前提，如果沒有對目標群體作出合理估測，那麼將相關估測拓延到目標群體以外的群體就沒有意義。

(二) 實驗室實驗的效度評價

對實驗室實驗的效度最常見的評價是，它具有“很高的內部效度，但外部效度很低”。這種論斷將實驗室實驗內部效度高歸功於實驗設計對干擾變數的控制（如隨機分配控制組和實驗組等），而將外部效度低歸咎於被試樣本的非代表性以及實驗室環境與現實環境的明顯差異。但如果根據效度的定義及其分類仔細加以考量的話，就會發現上述論斷是不全面的，甚至具有誤導性。

首先，並不是所有的實驗室實驗都能實現高的內部效度。

2015年前後爆發的可重複性危機就集中體現了實驗室實驗內部效度的“失守”。在社會科學領域，實驗方法在心理學和經濟學中的應用最為廣泛，其實驗設計也相對規範。但2015年至2016年的一系列重複實驗揭露，大量發表在權威學術期刊上的心理學和經濟學實驗是不可複製的。一項針對心理學三大頂級期刊上100篇原創文章所涉及實驗的研究發現，60%以上的重複實驗的結果與原作不符。另一項針對67篇來自13家頂級經濟學期刊的文章的研究也揭露出一半以上的實驗經濟學研究沒有經受住重複實驗的考驗。這些不可複製的實驗基本都採用了隨機分配方式和其他常規的實驗設計。但其結果無法在目標人群中重現———換言之，它們並不具備內部效度（尤其是統計效度）。同樣的現象在政治科學研究中也存在。譬如，今井耕介（Kosuke Imai）就複製了艾倫·戈伯（Alan Gerber）

和唐納德·格林（Donald Green）關於不同模式的政治動員對鼓動選民投票的影響的著名實驗，但得出了不同的結果。

同時，在實驗室實驗中，隨機分配方式也並不是排除所有干擾變數的萬靈藥。

根據卡利·摩根（Kari Morgan）和唐納德·魯賓的測算，在一個實驗室實驗中，如果假定除干預因素外，研究現象僅與10個干擾因素相關（這麼低的數量在錯綜複雜的社會政治現象中幾乎是不可能的），那麼單純依靠隨機分配的方法，控制組與實驗組在干擾因素方面仍存在顯著差異（即沒有排除干擾變數的影響）的可能性超過40%。換言之，這一採取隨機分配方法的實驗有四成以上的可能性會出現明顯的不平衡（imbalance）問題，進而直接影響實驗結果的可靠性。

因此，方法論學者建議，研究者除了確保採用常規實驗流程（如隨機分配），還應綜合使用各種設計手段來保障實驗設計的內部效度。而當前實驗方法的發展和實踐也極大豐富了實現這一目標的工具箱。譬如，設計者可以透過計算機成像技術、腦部核磁共振、腦電圖等高科技手段提高因果效應觀測的精準度，進一步降低可見的干擾因素的影響，進而提高實驗設計的因果效度和統計效度。對不可見因素，研究者則可採用行為心理學方法，使用或階段性使用物質和金錢獎勵、選擇特定實驗時間和環境以及眼動儀及其他閾下直覺測量手段等來控制和排除這些因素。至於建構效度，麗貝卡·莫頓（Rebecca Morton）指出，基於形式模型設計實驗，將理論和邏輯上的假定性因素（包括上文提及的“個體處理穩定性假定”）納入到實驗過程中，可以避免理論與實證之間的脫節。這種實驗模式不僅提高了實驗的建構效度，也超越了傳統隨機對照試驗的因果推斷的侷限，從而推動了研究重心由因果效應向因果機制轉變。

實驗室實驗如果沒有縝密的設計和技術保障，其內部效度不一定高。同樣，它的外部效度也不是天然就是低的。

實驗室實驗最常受詬病的、導致其“外部效度低”的問題有兩個。一個是對被試來源的擔憂。很多實驗室實驗的實施物件都是學生。批評者認為，學生只是整個社會群體中的一小部分，他們本質上只是一種方便樣本。基於這樣的樣本得出的推斷不能推廣到全體國民。然而，如果該問題的本質僅是學生樣本的代表性不足的話，那麼這仍然是對目標群體的推斷效度的考量——這不是外部效度問題，而是內部效度問題。同時，方法論學者已經對樣本的侷限效能導致多大的結果偏差進行了各種對比研究。他們發現，至少在某些議題上，學生樣本的侷限性造成的影響並不像通常認為的那麼嚴重。譬如，馬基恩·埃加斯（Martijn Egas）和亞諾·裡德爾（Arno Riedl）對比了學生樣本與網民樣本在

一場涉及公共產品的博弈中的表現，發現二者的表現極為相似。辛迪·卡姆（Cindy Kam）等分別從學校和本地社群的代表性樣本中選取實驗被試，發現除了年齡和性別，兩組被試在其他方面都沒有顯著差異。當然，這不是說實驗設計者就可以無視選擇方便樣本時所存在的侷限，但研究者應將這一侷限性與學生樣本給研究帶來的可能性和效益結合起來加以考慮，尋找兩者之間的平衡點。值得一提的是，技術的進步業已允許研究者在更廣泛的人群中展開實驗，譬如，李·西格爾曼（Lee Sigelman）等人針對民選官員的領導力展開的實驗、詹姆斯·哈比亞利馬納（James Habyarimana）等人在烏干達的坎帕拉進行的族群視角下的公共產品分配實驗以及查爾斯·貝勒馬爾（Charles Bellemare）等人在荷蘭進行的最後通牒博弈實驗等都是在從具有代表性的樣本中選取的被試中進行的。

另一種對實驗室實驗的外部效度的質疑來自對所謂實驗效應（experimental effects）或者說實驗者效應（experimenter effects）的擔憂。批評者認為，實驗室是完全人工構建的非現實環境。在多數情況下，被試清楚知道自己是實驗物件以及何時開始和結束實驗。這一點會影響其在實驗中的選擇和決策，進而做出與現實中不同的表現。然而，由於這種現象不一定涉及目標人群以外的人群，因此它實際上也不是一個嚴格意義上的外部效度問題，而應是一個生態效度（ecological validity）問題。生態效度與內部效度和外部效度存在本質性的不同。它並不關注實證推斷與真實規律的聯絡，而是考察研究環境與實際環境的相似程度，因此也被稱為“現世實在主義”（mundane realism）、“情景近似性”（contextual congruence）或“實驗的田野性” （fieldness of an experiment）。

實驗的生態效度高，並不一定代表著以其為基礎的論斷就能夠拓展到目標人群以外的群體

，但由於對現實的模擬程度時常與實驗的準確性和普適性密切相關，因此生態效度得到了實驗設計者和方法論學者的普遍關注。這實際上直接催生了調查實驗和田野實驗這兩種在被試的自然生活環境中進行實驗的方法。

而就實驗室實驗而言，生態效度低也不是無法打破的夢魘。

大量的社會科學研究已經探索出至少五種行之有效的方法來提高實驗室實驗的生態效度。第一，掩蓋實驗目的。研究者可以不向被試透露實驗的目的和具體流程，以此方法來避免被試根據干預因素或實驗起止時間改變自己的選擇策略和行為方式。第二，使用現例項子作為干擾變數。實驗設計者可以運用生活中的實際資訊或事件作為實驗的刺激元素，這樣有助於在測試過程中更好地反映被試在現實生活中的經驗。很多政治心理學實驗都已採用這種方法。第三，模擬現實環境。雖然實驗室實驗對實驗環境有著嚴格限制，但仍允許研究者將現實中常見但與實驗無關的資訊和條件加入實驗流程，便於被試更好

地帶入情景和調動自己的真實感受。譬如，在關於政治新聞的研究中，研究者除了播放政治新聞，還可以夾雜進經濟新聞、本地時事等其他新聞型別，使被試更加貼近平時接受新聞資訊時的媒體氛圍。第四，物質刺激。研究者透過物質刺激來調動被試更加積極地參與到實驗過程中去，並有更強的意願來遵守實驗設計者給出的指令。當然，這種方法也應根據實驗目的酌情實施。心理學家已經發現，物質刺激對於被試完成有困難的任務往往更有效；對於完成簡單的判斷和任務而言，物質刺激反而沒有必要，有時甚至會產生反作用。第五，非自然環境或許正是某些研究所需要的。譬如，在前文提到的鮑希等人關於選民身份與投票意願的研究中，被試的選民身份既沒有參照現實情況，也沒有進行隨機分配，而是根據形式模型的條件進行了人為劃分，從而全面考察了具有不同特徵的群體內選民的行為規律。因此，正如諾貝爾經濟學獎獲得者弗農·史密（Vernon Smith）指出的，實驗中所有加入和省略的變數都可以是干預因素的一部分。研究者在實驗設計過程中應充分考慮和利用它們對實驗結果的綜合作用。

綜上所述，

無論是拓展被試樣本，還是提升生態效度，都有助於增加實驗設計的內部效度和外部效度。

而單就外部效度而言，其關注的是研究推斷能否超越目標人群，因此對它的考察和提升永遠是經驗性的而非結論性的。只要研究的目標人群和樣本不是人類全體，外部效度問題就將永遠存在。這一問題也不只是實驗室實驗研究方法面臨的難題，而是對所有型別的實證社會科學研究都會碰到的挑戰。

容易被忽略的一點是，由於實驗室實驗所要求的樣本量小、研究時間短而且結果明確，它往往比其他研究方式更容易提升外部效度。

譬如，前文提到的安索雷布哈爾和延加在加利福尼亞進行的政治傳播實驗。研究者後來將該實驗結果與美國總統選舉、各州參眾議員和州長選舉等多種選舉的觀察結果進行比對印證，將基於一州的目標人群的實驗判斷擴充套件為對全國的選舉情況的認識。貝內迪克特·赫爾曼（Benedikt Herrmann）更是將同一組實驗推廣到16個不同國家，超越了經濟、政治、文化界限，獲得了更廣泛人群中公共產品分配規律的實證證據。此外，阿爾文·汪（Alvin Wang）和弗洛裡安·延奇（Florian Jentsch）以及約翰·澤連斯基（John Zelenski）等分別對被試反應進行了跨時間的比較。伊格納西奧·埃斯彭達（Ignacio Esponda）和伊曼紐爾·韋斯帕（Emanuel Vespa）甚至跨越了研究單元，發現在同一選舉實驗中個體層面和群體層面的決策機制存在差異。這些研究都在不同範圍和維度提升了實驗室實驗的外部效度。這就是說，

實驗室實驗外部效度低的問題可以透過多種方法得到解決。

四、效度視角下的政治科學實驗研究

本文對實驗室實驗的原理、應用及其在政治科學研究中的效度進行了討論。本文的研究表明，實驗室實驗是一種成熟的因果推斷方法，它比其他傳統的實證研究方法更為貼合因果效應和因果機制的理論邏輯。所謂實驗室實驗“內部效度高、外部效度低”的論斷有失全面。當然，它也並不是完美的因果推斷工具，其內部效度和外部效度都依賴於研究者對實驗的精心設計和實施，並需要研究者將實驗與具體的研究方向和主題相結合。然而，研究者不應因實驗被試的樣本特性和研究環境的特殊要求而忽視或貶低這種方法在政治科學實證研究中的作用與價值。在政治科學方法論學者和實驗研究者的共同努力下，實驗室實驗方法也將不斷進步，突破原有侷限，在更廣泛的政治科學研究領域做出貢獻。

目前，國內政治學者對實驗方法已有了相當的瞭解，但在應用層面相對偏重於調查實驗和田野實驗。實驗室實驗仍有待進一步應用和發展。本文將從以下四個方面探討實驗室實驗與中國政治科學研究的結合路徑。

第一，借鑑國際經驗，推動中國特色的政治行為學研究。

實驗室實驗在政治學中最大的應用領域是政治行為研究。大量政治參與研究和政治經濟學實驗為該方法在此類議題中的應用積累了豐富的素材與經驗。在當前的中國，政府治理和社會治理面臨著諸多新挑戰，多樣化的政治互動與交流已成為重要的時代特徵，城鄉、區域、階層、群體間的不平衡和不充分發展成為施政者關心的核心問題。如何理解這種不平衡和不充分發展的內在機制？什麼才是影響公民政治參與、疏解社會矛盾的關鍵因素？結合中國公民特徵的實驗室內的群體決策實驗和政治傳播實驗將為了解這些問題內部的因果關係和作用機制提供幫助。實驗室政治學還將為發展當代中國複雜社會、經濟、政治條件下公民的政治參與動因和規律、黨內民主和政府制度建設以及公共產品的有效供給和合理分配等諸多方面的理論提供可靠的實證基礎。

第二，運用政治心理學實驗，深入瞭解複雜社會經濟環境下的國民心態。

一般認為，知識和態度是驅動人類參與政治互動、選擇政治行為策略的原動力。以政治心理學為基礎的實驗室實驗為了解兩者之間的因果聯絡提供了一條有效途徑。情緒控制和資訊接觸實驗可以有效檢測特定的語言與非語言表達形式對人類行為的影響。有研究指出，中國社會正處於高社會資本、高政治信任、高政治能動性與激烈的社會政治互動並存的狀態。民眾的政治心態豐富，且容易受到外來因素影響。及時有效地引導民眾的政治心態、疏導社會矛盾和緩和過激輿論是高迴應型政府為鞏固穩定發展局面需要承擔的重要任務。透過政治心理學實驗，研究者能有效測量不同政治交流方式對民眾態度與行為產生的影響，進而更加深入地瞭解政府與民眾、政府與政府以及民眾與民眾之間的交流機制。

第三，與前沿科技、大資料的跨學科結合。

延加和羅斯·麥克德莫特（Rose McDermott）在展望實驗政治學的發展前景時不約而同地提到，與先進技術的結合是實驗室實驗的必然發展趨勢。當前，前沿基因科學、生物學、醫學技術為測量和理解人類情感與意識提供了新

的技術和視角。

研究者可以透過核磁共振圖譜、眼動儀等手段精確把握人們在接受干預因素時的生理反應和直覺感受。

這些高新技術手段與政治實驗的結合將為我們瞭解個體與社會政治環境之間的互動提供新的微觀橋樑。這是在非實驗室環境中很難展開的研究。此外，近年來大資料研究在我國日趨興盛，越來越多的大學和研究機構擁有了蒐集、挖掘和處理地區乃至全國範圍內的大資料的能力。這就為更好地把握實驗物件的狀態、特點和行為模式創造了條件，以便從被試樣本的層面提升實驗研究的內部效度、外部效度以及生態效度。同時，利用日趨普及的通訊交流和資訊獲取裝置，也使得在更大範圍內實施更為複雜的研究實驗成為可能。

第四，因地制宜，推進實驗室實驗方法的應用。

改革開放以來，實證研究在我國政治科學領域獲得了長足發展。隨著研究的深入，越來越多的學者開始有意識地將實證研究引向對政治現象的內在因果性的探索，包括實驗室實驗在內的實驗研究方法則成為了他們手中的利器，部分大學還建立起了專門的社會科學實驗室研究的平臺和機構。對方法的重視以及專門機構的設立為開展精準的政治學實驗提供了穩定的資金和技術支援、封閉獨立的實驗室環境以及專業的執行團隊和配套設施。在這種條件下，實施實驗組與對照組的完全隨機分配（complete randomization）、區塊隨機分配（block randomization）、隨機分組的再隨機分配（rerandomization），乃至形式模型實驗路徑（formal modeling approach）等多種技術手段都不是難事，從而為政治科學實驗室實驗的內部效度提供了可靠保障。另一方面，

中國多樣化的區域社會經濟特徵和地方政策又為進行分條件、多點重複的實驗提供了豐富的被試資源。

對這些資源善加利用，即可對實驗室實驗的外部效度實現多角度檢驗和有效增益。這些都為在中國實現內外效度“雙高”的政治科學實驗室實驗提供了獨有的條件，也為中國的方法論學者嘗試新的實驗設計和應用技術、以中國的政治實驗研究帶動政治科學方法的整體進步創造了必要的物質基礎。

總之，中國的社會和學術進步從物質、技術和理論多個角度為實驗室實驗的應用創造了條件，而中國蓬勃發展而又日趨複雜的社會、經濟、政治環境又為運用實驗室實驗進行社會科學研究提供了獨特的機遇和舞臺。以實驗室實驗為代表的因果推斷研究將為全面推動中國政治科學實證研究以及實現中國特色的政治學研究與世界學術前沿接軌提供重要的方法論支援。當然，倡導實驗室實驗並不意味著要摒棄調查實驗和田野實驗以及其他實證和理論研究模式。

實驗室實驗也需要與其他研究方式相配合，才能彌補本身具有的侷限性，才能全面而系統地認識中國政治以及人類政治生活的普遍規律。

轉載 | 解倒懸

稽核 | Anders

終審 | 李致憲

前沿追蹤/理論方法/專家評論

ID： ThePoliticalReview

“在看”給我一朵小黃花

百聞網

方法新論 | 胡悅：實驗室實驗：政治科學研究的一種有效方法？

相關文章