為什麼說強化學習是針對最佳化資料的監督學習？

強化學習（RL）可以從兩個不同的視角來看待：最佳化和動態規劃。其中，諸如REINFORCE等透過計算不可微目標期望函式的梯度進行最佳化的演算法被歸類為最佳化視角，而時序差分學習（TD-Learning）或Q-Learning等則是動態規劃類演算法。

雖然這些方法在近年來取得了很大的成功，但依然不能很好地遷移到新任務上。相較於這些強化學習方法，深度監督學習能夠很好的在不同任務之間進行遷移學習，因此我們不禁問：是否能將監督學習方法用在強化學習任務上？

在這篇博文中，我們討論一種理論上的強化學習模型。首先我們認為強化學習可以看作是高質量資料上的監督學習，在此基礎上，獲取高質量資料（好資料）本身也具有挑戰性（除非是模仿學習），因此強化學習可以進一步看作是針對策略和資料的聯合最佳化問題。

從監督學習的角度來看，許多強化學習演算法可以被認為是在交替地尋找更好資料和對資料進行監督學習。那麼如何更有效地獲取更好地資料呢？事實證明在多工環境下，或者在多個問題可以相互轉換的條件下更容易獲取優質資料。因此，我們主要討論如何從資料最佳化的角度來理解諸如hindsight relabeling資料增強法和inverse RL等技術。

接下來我們將首先回顧強化學習的兩個主要研究視角，即最佳化和動態規劃，然後將從有監督視角深入探討強化學習。

強化學習的兩個研究視角

最佳化視角

最佳化視角將強化學習看作是一個最最佳化問題，只不過目標函式是一個不可導的函式，具體地，期望回饋函式是引數θ在策略下的函式：

該函式不僅複雜，且往往不可導，這是因為他取決於依照策略

選擇的動作（action）以及當前的環境情況。雖然我們可以透過REINFORCE技巧來估計該函式的梯度，但這個梯度仍然依賴於策略引數和資料，而這些資料又透過在模擬器上執行策略得到。

動態規劃視角

不同於最佳化視角，動態規劃觀點認為強化學習可以分解為包含多步，並在每一步選擇正確行動的多階段最佳化問題。透過現有的離散動態理論，我們可以精確地解決這個動態規劃問題。例如，例如，Q-learning透過迭代以下更新來估計狀態-動作值Q（s，a）：

在連續空間或狀態空間和動作空間較大的情況下，我們可以使用函式逼近器（如神經網路）表示q函式來近似動態規劃，並將TD誤差的差值最小化，TD誤差是上述方程中LHS和RHS之間的平方差值：

其中TD目標函式為：

，注意這是Q函式的損失函式，而不是整個策略的損失函式。

這種方法允許我們使用任何型別的資料來最佳化Q函式，而不依賴於高質量資料。但這種方法也存在最佳化結果的質量問題，即可能收斂到較差的解決方案，因此可能很難應用到新問題上。

監督學習視角

我們現在討論另一種強化學習理論模型，其主要思想是將RL視為策略和經驗的聯合最佳化問題，即我們希望找到高質量資料和良好策略。直覺上，我們期望高質量資料滿足：

（1）能夠獲得高回報

（2）能夠充分探索環境

（3）至少能夠在一定程度上代表我們的政策。

我們將好的政策簡單地定義為可能產生好資料的政策。如下圖：

圖1

許多舊的和新的強化學習演算法可以被看作是在最佳化資料上進行行為克隆（即監督學習）。這裡主要討論了最近將這一想法擴充套件到多工視角的工作，在多工視角下最佳化資料實際上變得“更容易”了。

把“好的資料”轉換成“好的策略”很容易，只需要進行監督學習即可。然而，將“好的策略”轉換為“好的資料”稍微更具挑戰性，我們將在下一節中討論幾種方法。事實證明，在多工場景中，或者透過人為地稍微修改問題定義，將“好的策略”轉換為“好的資料”要容易得多。倒數第二部分將討論如何在多工場景中重新標記目標，修改問題定義，以及透過inverse RL提取“好的資料”。

將資料與策略解耦

現在我們透過期望最大化的方式來公式化監督學習視角［Dayan 1997， Williams 2007， Peters 2010， Neumann 2011， Levine 2013］。為了簡化表示，我們使用 πθ（τ）作為策略 πθ 產生軌跡 τ 的機率，並使用 q（τ）表示將最佳化的資料分佈。同時我們將預期獎勵目標函式以對數形式表示為logJ（θ），由於對數函式是單調遞增的，因此最大化對數函式等同於最大化期望回報。然後我們應用Jensen不等式將對數移動到期望內：

Jensen不等式得到了目標函式的一個下界。這個下界的有用之處在於，它允許我們使用來自不同策略的取樣資料來最佳化策略。同時這個下界也明確表明，強化學習是一個關於策略和經驗（資料）的聯合最佳化問題。下表將監督學習視角與最佳化和動態規劃視角進行了比較：

因此尋找好的資料和策略等同於最佳化函式下限F（θ，q）。最最佳化下界的一個常用方法是對其引數進行座標上升，即交替迴圈地對資料分佈 q（τ）和策略 πθ 進行最佳化，直至收斂。

最佳化策略

當最佳化策略的下界時，目標函式與監督學習完全相同：

這個觀察結果令人興奮，因為監督學習通常比RL演算法穩定得多。此外，這一觀察結果表明，之前使用監督學習作為子任務的RL方法［Oh20 18， Ding 2019］實際上可能在最佳化期望回報的下限。

最佳化資料分佈

資料分佈的最佳化目標是在不偏離當前策略太遠的情況下最大化期望回報，因此需要一個額外的約束：

上面的KL約束使得對資料分佈的最佳化較為保守，寧願以略低的回報為代價保持在當前策略的附近。最佳化對數回報而不是期望回報，進一步降低了最佳化問題的風險性，因為對數log函式時一個凹函式。

有很多方法可以最佳化資料分佈。一個直觀的（如果效率低下的話）方法是用當前策略的一個來噪聲版本來收集經驗，並保留獲得最高獎勵的10%的經驗。另一種方法是軌跡最佳化，即沿單一軌跡來最佳化狀態。第三種方法則通過當前獎勵來重新調整之前收集的資料軌跡的權重。此外，資料分佈q（τ）可以有多種表示方式——根據先前的觀測軌跡繼非引數離散分佈，或分解每一對狀態-動作的分佈，亦或是半引數模型。

從監督學習的角度來分析之前的工作

有許多之前的演算法隱式地進行了策略最佳化和資料最佳化。例如，獎勵加權迴歸［Williams 2007］和優勢加權迴歸［Neumann 2009， Peng 2019］透過對獎勵資料和加權資料進行行為克隆，將這兩個步驟結合起來。自我模仿學習［Oh 2018］根據獎勵來對觀察軌跡進行排序，並選擇top-k個軌跡的平均分佈來得到資料分佈。MPO ［Abdolmaleki 2018］透過從策略中取樣動作，構建一個數據集，重新對那些預期會帶來高回報（即高回報+價值）的動作進行權重分配，然後對這些動作執行行為克隆。

圖2

許多近期的多工強化學習演算法根據每個軌跡所解決的任務來整合他們。這種事後組織的過程與hindsight labeling和反向RL密切相關，是近年來基於監督學習的多工RL演算法的核心思想。

近期的一些工作可以看作是這些演算法的變體，主要變化是在多工場景中尋找好資料變得更加容易了。這些工作要麼在多工設定中直接操作，要麼修改單任務設定，使其看起來像一個任務。當我們增加任務的數量時，所有的經驗對於某些任務來說都是最佳的。我們可以從這個角度來分析近期的三篇工作：

條件目標模仿學習［Savinov 2018， Ghosh 2019， Ding 2019， Lynch 2020］

在一個有具體目標的任務中，我們的資料包括狀態（state）和動作（action），以及嘗試的目標。也許演算法沒有達到指令目標，但對於它的實際目標來說是成功的，因此我們可以透過用實際達到的目標替換原來的指令目標，從而最佳化資料分佈。因此，由目標條件模仿學習［Savinov 2018， Ghosh 2019， Ding 2019， Lynch 2020］和後驗經驗回顧［Andrychowicz 2017 ］進行的後驗重標記，可被視為對非引數型資料分佈的最佳化。此外，目標條件模仿可以看作是簡單地在最佳化資料上進行監督學習（即行為克隆）。有趣的是，當這種帶有重新標籤的目標條件模仿過程被迭代地重複時，可以證明這是一個從頭開始學習策略的收斂過程，即使根本沒有提供專家資料！［Ghosh 2018］這是非常有前途的方法，因為它從本質上為我們提供了一種不用明確地要求任何引導或價值函式學習的強化學習技術，顯著地簡化了演算法和調優過程。

條件回報策略［Kumar 2019， Srivastava 2019］

有趣的是，如果我們可以將從次優政策中收集的非專家軌跡視為對某些任務類的最優監督，我們可以將上面討論的內容擴充套件到單任務強化學習場景。當然，這些次優軌跡可能不會使回報最大化，但它們在匹配給定軌跡的回報時是最優的，這也是條件回報策略的含義所在。

策略提升後驗推理［Eysenbach 2020］

雖然實現目標的演算法和資料集最佳化之間的聯絡是清晰的，但直到最近人們還不清楚如何將類似的想法應用到更一般的多工場景中，比如一個離散的獎勵函式集，或者由獎勵和懲罰條件的可變（線性）組合定義的獎勵集。為了解決這個開放問題，我們從最佳化資料分佈對應於回答以下問題的直覺開始：“如果你假設你的經驗是最佳的，你試圖解決什麼任務？”有趣的是，這正是inverse RL所回答的問題。我們可以簡單地使用inverse RL在任意多工場景中重新標記資料，反向RL為跨任務共享經驗提供了理論上的基礎機制。

未來的探索方向

在本文中，我們討論瞭如何將RL視為使用最佳化的（重新標定的）資料來解決一系列標準監督學習問題。深度監督學習在過去十年的成功表明，這種方法在實踐中可能更容易使用。雖然到目前為止進展很有希望，但仍有幾個尚未解決的問題。

首先，是否還有其他（更好的）方式可以獲得最最佳化的資料？重估或重新組合現有經驗是否會在學習過程中產生偏差？ RL演算法應該如何探索以獲得更好的資料？在這方面取得進展的方法和分析也可能為從RL的不同角度衍生的演算法提供深刻見解。

其次，這些方法可能提供了一種簡單的方法，將實踐技術和理論分析從深度學習轉移到RL，否則由於非凸目標（如政策梯度）或最佳化和測試時間目標不匹配（如Bellman誤差和政策回報）而難以實現。我們非常看好這些方法提供的幾個可能的應用前景，例如改進的實用RL演算法，改進對RL方法的理解等等。

開啟App看更多精彩內容

百聞網

為什麼說強化學習是針對最佳化資料的監督學習？

相關文章