摘要:近日,針對泛化能力強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)無法解釋其具體決策的問題,深度學(xué)習(xí)殿堂級人物等人發(fā)表論文提出軟決策樹。即使沒有使用無標(biāo)簽數(shù)據(jù),仍然有可能通過使用一種稱為蒸餾法,的技術(shù)和一種執(zhí)行軟決策的決策樹,將神經(jīng)網(wǎng)絡(luò)的泛化能力遷移到?jīng)Q策樹上。
近日,針對泛化能力強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)(DNN)無法解釋其具體決策的問題,深度學(xué)習(xí)殿堂級人物 Geoffrey Hinton 等人發(fā)表 arXiv 論文提出「軟決策樹」(Soft Decision Tree)。相較于從訓(xùn)練數(shù)據(jù)中直接學(xué)習(xí)的決策樹,軟決策樹的泛化能力更強(qiáng);并且通過層級決策模型把 DNN 所習(xí)得的知識表達(dá)出來,具體決策解釋容易很多。這最終緩解了泛化能力與可解釋性之間的張力。
深度神經(jīng)網(wǎng)絡(luò)優(yōu)秀的泛化能力依賴于其隱藏層中對分布式表征的使用 [LeCun et al., 2015],但是這些表征難以理解。對于第一個隱藏層我們明白是什么激活了單元,對于最后一個隱藏層我們也明白激活一個單元產(chǎn)生的影響;但是對于其他隱藏層來說,理解有意義變量(比如輸入和輸出變量)的特征激活的原因和影響就困難重重。由于其邊際效應(yīng)取決于同一層其他單元的影響,使得獨(dú)立地理解任何特定的特征激活變得舉步維艱。
相比之下,很容易解釋決策樹是如何做出特定分類的,因?yàn)樗蕾囉谝粋€相對短的決策序列,直接基于輸入數(shù)據(jù)做出每個決策。但是決策樹并不像深度神經(jīng)網(wǎng)絡(luò)一樣可以很好地泛化。與神經(jīng)網(wǎng)絡(luò)中的隱藏單元不同,決策樹較低級別的典型節(jié)點(diǎn)僅被一小部分訓(xùn)練數(shù)據(jù)所使用,所以決策樹的較低部分傾向于過擬合,除非相對于樹的深度,訓(xùn)練集是指數(shù)量級的規(guī)模。
在這篇論文中,我們提出了一種新的方法,以緩解泛化能力和可解釋性之間的張力。與其嘗試?yán)斫馍疃壬窠?jīng)網(wǎng)絡(luò)如何決策,我們使用深度神經(jīng)網(wǎng)絡(luò)去訓(xùn)練一個決策樹以模仿神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)的「輸入-輸出「函數(shù),但是是以一種完全不同的方式工作。如果存在大量的無標(biāo)簽數(shù)據(jù),該神經(jīng)網(wǎng)絡(luò)可以創(chuàng)建一個大得多的標(biāo)記數(shù)據(jù)集去訓(xùn)練一個決策樹,從而克服決策樹的統(tǒng)計(jì)低效問題。即使無標(biāo)簽數(shù)據(jù)是不可用的,或許可以使用生成式建模中的研究進(jìn)展(Goodfellow et al., 2014, Kingma and Welling, 2013)以從一個類似于數(shù)據(jù)分布的分布中生成合成無標(biāo)簽數(shù)據(jù)。即使沒有使用無標(biāo)簽數(shù)據(jù),仍然有可能通過使用一種稱為蒸餾法(distillation,Hinton et al., 2015, Buciluˇa et al., 2006)的技術(shù)和一種執(zhí)行軟決策的決策樹,將神經(jīng)網(wǎng)絡(luò)的泛化能力遷移到?jīng)Q策樹上。
在測試過程中,我們使用決策樹作為我們的模型。該模型的性能可能會略微低于神經(jīng)網(wǎng)絡(luò),但速度快得多,并且該模型的決策是可解釋的。
為了簡單起見,我們從一類特殊的決策樹開始討論,使深度神經(jīng)網(wǎng)絡(luò)的知識能更容易地被提取/蒸餾然后導(dǎo)入決策樹中。
2、專家的層次化混合
我們使用小批量梯度下降法訓(xùn)練軟二元決策樹,其中每一個內(nèi)部節(jié)點(diǎn)(inner node)i 有一個學(xué)習(xí)到的過濾器 w_i 和一個偏置 b_i,每一個葉節(jié)點(diǎn)(leaf node)l 有一個學(xué)習(xí)到的分布 Q_l。在每一個內(nèi)部節(jié)點(diǎn)處,選擇最右邊的分支的概率為:
其中 x 是模型的輸入,σ是 sigmoid logistic 函數(shù)。
這個模型是專家的層次化混合(hierarchical mixture of experts,Jordan and Jacobs, 1994),但每個專家實(shí)際上都是一個「偏執(zhí)者(bigot)」,即在訓(xùn)練之后,無論輸入是什么都會生成相同的分布。該模型學(xué)習(xí)到了一個過濾器的分層體系,用于為每個樣本分配一個特定的專家以及相關(guān)的特定路徑概率,并且每個偏執(zhí)者都學(xué)習(xí)到了一個簡單的、靜態(tài)的關(guān)于所有可能輸出類 k 的分布。
其中 Q^l. 表示在第 l 葉的概率分布,Φ^l. 是第 l 葉的學(xué)習(xí)參數(shù)。
圖 1:這個示意圖展示了一個有單個內(nèi)部節(jié)點(diǎn)和兩個葉節(jié)點(diǎn)的軟二元決策樹。
圖 2:一個在 MNIST 上訓(xùn)練的 4 層軟決策樹的可視化。
內(nèi)部節(jié)點(diǎn)中的圖像是學(xué)習(xí)到的過濾器,葉節(jié)點(diǎn)中的圖像是學(xué)習(xí)到的類概率分布的可視化。圖中標(biāo)注了每一葉的最終的較大可能分類,以及每一個邊的可能分類。以最右邊的內(nèi)部節(jié)點(diǎn)為例,可以看到在決策樹的當(dāng)前層次下可能的分類只有 3 和 8,因此該學(xué)習(xí)到的卷積核只需要簡單地學(xué)習(xí)區(qū)分這兩個數(shù)字就可以了。
圖 3:在 Connect4 數(shù)據(jù)集上訓(xùn)練的軟決策樹前 2 層的可視化示例。
通過檢查已學(xué)習(xí)的過濾器,我們可以看到游戲可以分為兩種截然不同的子類型:一種是玩家將棋子放在棋盤的邊緣,另一種是玩家將棋子放在棋盤中央。
論文:Distilling a Neural Network Into a Soft Decision Tree
論文地址:https://arxiv.org/abs/1711.09784
摘要:深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在分類任務(wù)上證明了其有效性;當(dāng)輸入數(shù)據(jù)是高維度,輸入與輸出之間的關(guān)系很復(fù)雜,已標(biāo)注的訓(xùn)練實(shí)例數(shù)量較大時,深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)更為突出。由于它們對分布式層級表征的依賴,很難解釋為什么一個已學(xué)習(xí)的網(wǎng)絡(luò)能夠在特定的測試中做出特定的分類決策。如果我們能夠獲取神經(jīng)網(wǎng)絡(luò)習(xí)得的知識,并借助依賴于層級決策的模型表達(dá)出來,那么解釋一個特定的決策將會容易很多。我們描述了一種使用已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)創(chuàng)建軟決策樹的方法,它比直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的決策樹有著更優(yōu)的泛化能力。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://hztianpu.com/yun/4688.html
閱讀 1956·2019-08-29 16:44
閱讀 2252·2019-08-29 16:30
閱讀 877·2019-08-29 15:12
閱讀 3618·2019-08-26 10:48
閱讀 2730·2019-08-23 18:33
閱讀 3885·2019-08-23 17:01
閱讀 2018·2019-08-23 15:54
閱讀 1374·2019-08-23 15:05