FRACTALNET 不適用殘差連接完成超深的類神經網路

less than 1 minute read

Published: November 22, 2018

這年頭時不時都來一個 skip connection（跳躍連接/殘差連接）, 認為此風不可長的研究員就想出了 FractalNet。基於Skip connection 解決vanishing gradient 問題的理念，Fractal Net 使用梯子設計形式，增加信息可以流向的pipeline 。由於每個 pipline 所經過的權重比較少，因此 gradient 可以透過比較沒有什麼阻抗的 pipeline 更新比較底層的權重。

每個pipeline 所經過的卷積層（ conv → batchnorm → relu ）最多兩層就與鄰居pipeline concat 或 add ( 統稱 join )起來了。這樣的設計定為一個 block, 每個block 之間做池化。每個階梯層的分離與結合稱作 path，在最後的join 層它可以結合深淺度的特徵。而整個網路中完全不依賴任何的skip connection 結構，也達到了超深的類神經網路結構

這樣的設計可以在不使用data augmentation情況下，超越 resnet 。此外，因為Drop path 可以將部分的資訊修剪，因此更加robust。

Regularization method: 為了訓練如此龐大的網路，在訓練時每個路徑都會隨機被 drop, 這包括全域與小區域的 drop, 例如上圖在 Input 分成了 4 個 channel, 全域 drop 就是其中一個 channel 被停掉，小區域則是大 channel 下被切分的channel。

作者在最後結語說為何這樣的設計有 student teacher 形式的關鍵在使用 drop path 。假設 channel 3 是比 4 深, 當 channel 3 被丟棄時，channel 4 被迫分擔 3 的工作。作者將部分的 channel 提出組合成新的模型，它依然能正常運作（沒說準確率降低多少）。

問題：記憶體佔用，如此之大的模型其 channel 必然導致記憶體佔用量提升。這也許是為什麼作者只有做到 40 層的緣故。

如果你喜歡我的文章或side projects，可以捐贈我一杯大熱美（大杯美式咖啡）支持我。

Share on

Twitter Facebook LinkedIn

Zhi Rui Tam

FRACTALNET 不適用殘差連接完成超深的類神經網路

Share on

You May Also Enjoy

What Chess (Might) Taught Us About Programming with AI

GPU乞丐從 NeurIPS 2024 看2025年 LLM 題目趨勢

Short writeup of “Unpopular opinions on AI”

Short writeup of recent challenges found in LLMs models (May 2023)