跳至主要内容

Backbone 架構的演進(未完成)

2012–2016:深層 CNN 成為標準 Backbone (深度與殘差的突破)

  • 設計動機
    • 傳統 CNN(如 VGG)堆疊過深會引發梯度消失(Gradient Vanishing)與網路退化(Degradation)問題
    • Detection / Segmentation 需要多尺度的特徵(低層抓邊緣,高層抓語意),需要更深且穩定的網路作為特徵提取基底
  • 設計方向
    • Identity Mapping(恆等映射):透過 Skip Connection 讓梯度可以直接回傳,解決深層優化問題
    • Bottleneck Design:利用 1×11 \times 1 卷積降維再升維,大幅降低 3×33 \times 3 卷積的計算量
  • 代表模型
    • ResNet (Residual block)
    • ResNeXt (Grouped Convolution 引入)
    • DenseNet (Dense connectivity,特徵重複利用)
  • 時代意義
    • 確立了「Stem \to Stage 1~4 \to Head」的標準分層架構
    • 成為後續 FPN(Feature Pyramid Network)完美契合的標準輸入源

2017–2020:CNN 的效率與可擴展時代 (算力與設計空間的精算)

  • 設計動機
    • 在行動端與邊緣設備上,標準 ResNet 參數冗餘且計算過度
    • 傳統放大模型只靠單一維度(加深 Depth 或加寬 Width),容易遇到邊際效應遞減
  • 設計方向
    • Depthwise Separable Convolution(深度可分離卷積)
      • 將標準卷積拆分為 Depthwise(空間特徵)與 Pointwise(通道混合),大幅降低 FLOPs
    • Compound Scaling(複合擴展)
      • 透過嚴謹的數學優化,按固定比例同時擴展網路的寬度、深度與輸入解析度(Resolution)
    • Neural Architecture Search (NAS)
      • 利用演算法自動搜索最佳的網路設計空間(Design Space)
  • 代表模型
    • MobileNet 系列 (Inverted Residuals, Linear Bottlenecks)
    • EfficientNet 系列 (Compound Scaling, NAS)
    • RegNet (量化網路設計空間)
  • 時代意義
    • Backbone 設計從「人工試錯」走向「數學規則化與自動化」
    • 確立了 FLOPs 與 Accuracy 之間的帕雷托最優(Pareto Frontier)標準

2020:Transformer 進入視覺領域 (捨棄先驗,擁抱全域)

  • 設計動機
    • CNN 受限於「局部感受野(Local Receptive Field)」,遠距離像素間的關係必須透過多層池化(Pooling)才能交互,導致資訊流失
  • 設計方向
    • 完全捨棄 CNN 的 Inductive Bias(平移不變性與局部性),將影像切塊(16×1616 \times 16 Patch)展平為 1D Token 序列
    • 引入 Global Self-Attention,讓模型從第一層開始,任何一個 Patch 都能直接與整張圖片的其他 Patch 進行 O(1)O(1) 距離的資訊交換
  • 核心痛點
    • 複雜度爆炸:Self-Attention 的計算量相對於 Token 數量呈二次方增長 O(N2)O(N^2)高解析度影像會導致記憶體與計算量崩潰
    • 缺乏多尺度:純 ViT 只有單一解析度(通常是原圖的 1/161/16),無法提供 Detection 需要的特徵金字塔(如 1/4,1/8,1/16,1/321/4, 1/8, 1/16, 1/32
  • 時代意義
    • 證明了只要「資料量夠大」,Data-driven 的全域建模能力可以碾壓人工設計的 CNN 先驗

2021–2022:Hierarchical Transformer (工程化與多尺度回歸)

  • 設計動機
    • 為了解決純 ViT 無法處理高解析度(O(N2)O(N^2) 瓶頸)與缺乏階層特徵的問題,必須讓 Transformer「CNN 化」
  • 設計方向
    • Window-based Attention:將注意力機制的計算限制在局部視窗(Window)內,將整體運算複雜度從影像大小的 O(N2)O(N^2) 降為線性 O(N)O(N)
    • Shifted Window:透過視窗平移(Shift),在不增加額外計算量的情況下,打通跨視窗的資訊交流
    • Patch Merging:模擬 CNN 的 Pooling,逐層降低空間解析度並增加通道數,完美重建 FPN 所需的四階段特徵圖
  • 代表模型
    • Swin Transformer (Shifted Windows)
    • PVT (Spatial Reduction Attention)
  • 時代意義
    • 成功將 Transformer 改造成通用型 Backbone,使其能無縫接入 Mask R-CNN, Cascade R-CNN 等主流密集預測(Dense Prediction)框架

2022–2023:Inductive Bias 融合與 ConvNet 回潮 (架構大一統)

  • 設計動機
    • 研究界反思:Swin 的成功,究竟是因為 Attention 本身,還是因為「階層化設計、大感受野、現代化訓練技巧」?
  • 設計方向
    • Macro/Micro Design 借鑒:用純 CNN 結構模擬 Transformer例如將 Stem 改為 4×44 \times 4 不重疊卷積(模擬 Patchify)、引入 7×77 \times 7 甚至 21×2121 \times 21 的大卷積核(模擬 Global Attention)、減少激勵函數並將 BatchNorm 替換為 LayerNorm
    • Hybrid 架構:在淺層保留卷積提取高頻邊緣細節,深層使用 Attention 捕捉全域語意
  • 代表模型
    • ConvNeXt / ConvNeXt V2 (純 ConvNet 的現代化逆襲)
    • InternImage (引入 Deformable Convolution v3,動態感受野)
  • 時代意義
    • 證明了「卷積與注意力機制並非互斥」底層的算子選擇(Operator)退居二線,整體的巨觀架構與訓練策略(Training Recipe)才是效能關鍵

2023–2025:Foundation Backbone 時代 (自監督與海量參數)

  • 設計動機
    • 監督式學習(ImageNet 標註)已達天花板視覺 Backbone 需要像 NLP 的 GPT 一樣,透過無標註資料學習「物理世界的通用表徵」
  • 設計方向
    • Masked Image Modeling (MIM):如 MAE(Masked Autoencoders),蓋住 75% 的影像區塊,強迫模型重建像素,藉此學習深層語意
    • Feature-level Self-Supervision:如 DINOv2,不重建像素,而是學習特徵層面的對齊與聚類
  • 核心特性
    • 抽取的特徵(Features)具備極強的「開箱即用」特性,包含語意、景深、甚至物體邊界資訊,只需 Linear Probe(單層線性微調)就能達到極高準確率
  • 代表模型
    • DINOv2 (ViT 基底,自監督王者)
    • SAM Image Encoder (任務導向的 Foundation Backbone)
  • 時代意義
    • Backbone 的競爭從「模型設計」轉移到了「算力與資料規模(Scaling Law)」Backbone 成為名副其實的「視覺基礎建設」

2024–2026:Post-Attention 與線性複雜度模型 (Mamba / SSM 的崛起)

  • 設計動機
    • 即使是 Swin Transformer,其局部視窗依然是一種妥協處理 4K4K 高畫質影像、長影片或 3D 醫療影像時,Transformer 的計算瓶頸依然無解
  • 設計方向
    • 引入控制系統理論的 State Space Model (SSM),將序列預測的計算複雜度強制降為純線性 O(N)O(N),且在推理階段可轉化為 RNN 形式,記憶體佔用極低
    • 2D Selective Scan (SS2D):為了解決 1D SSM 無法處理影像空間結構的問題,VMamba 提出了四向交叉掃描(Cross-Scan),讓模型既有全局感受野,又是線性複雜度
  • 代表模型
    • Vision Mamba (Vim)
    • VMamba (2D 視覺化的 SSM)
    • MambaVision (Mamba + Attention Hybrid 實用化)
  • 時代意義
    • 正式宣告 Post-Attention 時代 的來臨在「極高解析度」與「邊緣端即時推理」兩大極端場景中,SSM 有望全面取代傳統的 CNN 與 Transformer