DeepMind關係推理網路: Simple neural network module for r...

啊司com 2017-08-23

展开全文

今天小編要介紹這個月初DeepMind提出的Relation Network(以下簡稱RN)。RN在Relational Reasoning的一些相關任務上達到了SOTA，且模型架構本身簡潔且具備相當大彈性，使其能像插件一樣整合在不同基本模型(Ex CNN)應用在不同任務上。在介紹RN之前首先要介紹什麼是Relational Reasoning。

Source:BAIR

和一般的單純影像辨識不同的是:要回答上面這個問題需要多重的推理。首先找到藍色柱子，再來比較其他物件和藍色柱子的大小，最後辨識出這個物體的顏色。一般來說，這種需要透過多重推理才能達到結果的過程我們把它稱為Relational Reasoning。

在DeepMind之前解決這種問題通常是用Neural Module Network(NMN)[1]及其延伸[2]，NMN的主要概念如下圖:

Source:BAIR

上圖中每一個藍色的方框都是一個NN的Network，每一個有負責其中一部份的推理。但在訓練的過程中不會把每一個sub nn network分開來train(Ex 不會給標籤然後特別去train find blue這個Sub NN)，而是在訓練大NN的過程中自動去學會如何去調用、更新每個Sub NN的Weight。但這個做法缺乏彈性因為Module layout的設計都是Handcraft的不容易有效generalize到其他task上，這部分在[2],[3]上有用不同方法去進一步去學習predict module的layout，但是架構還是相對於RN還是複雜的。

而DeepMind提出的RN且只有一個數學式子，且在VQA上達到了SOTA:

其示意圖如下(以VQA的Task為例):

其中f,g為Multiple Layer Perceptron(MLP)，而o為物件。這裡的物件其實沒有特別定義是什麼東西，因此賦予了RN相當大的彈性。在這篇Paper裡object有影像和文字兩種型態。直覺上來說，g的輸出是兩個物件之間的關係的一個分數，f則是把這個分數mapping到對應的description。以上面的例子為例: g就是用來比較哪一個東西跟藍色柱子是同樣大小，而f就是去描述跟藍色柱子同大小物件的顏色。因為是在QA的情境，所以作者在每一個object pair中多append了一個Question的Feature在後面(圖中灰色)，這個是把Question輸入LSTM encode後得到。作者總共做了3個實驗來測試RN的性能。三個實驗分別為:VQA (CLEVER), VQA(SORT-OF-CLEVER),bAbI，因為VQA(CLEVER)這個任務是之前許多模型表現不好的地方，所以我們僅舉VQA(CLEVER)做介紹。

CLEVER這組DataSet是包含以下圖片和問題的敘述的資料，其中敘述又分Non-relational和Relational兩種如下圖，模型的任務就是要根據這些圖片來回答問題。