卷積神經網路（CNN）

一種使用卷積層偵測空間特徵的神經網路架構，長期主導影像辨識領域。

卷積神經網路（CNN）是一種專門處理影像等網格狀資料的神經網路。它不像傳統神經網路把每個像素都連到每個神經元，而是用一組小型濾波器（kernel）在輸入上滑動，偵測邊緣、紋理、形狀等局部特徵。多層堆疊之後，網路就能從簡單特徵逐步組合出複雜的物件辨識能力。 CNN 的重要性在於它讓現代電腦視覺真正可行。從 2012 年 AlexNet 在 ImageNet 上的突破，到後來的 VGG、ResNet、EfficientNet，CNN 主導了人臉辨識、醫療影像、自駕車感知、相簿自動標籤等應用超過十年。即使 Vision Transformer 興起，CNN 因為高效率與天生的平移不變性，至今仍是行動裝置與即時視覺任務的主力。一個直覺的比喻：想像你拿著一個小放大鏡掃過整張照片，每個位置記下看到的東西。第一輪看到邊緣，第二輪在這些筆記上找出角落，第三輪認出眼睛或輪子，最後就能判斷這是貓還是車。每個「放大鏡」就是一個學到的卷積濾波器，而 pooling 層負責總結區域資訊，讓網路不必在意物件確切位置。延伸概念：pooling、ResNet、Vision Transformer (ViT)、特徵圖、ImageNet、反向傳播。