卷积神经网络（CNN）

一种使用卷积层检测空间特征的神经网络架构，长期主导图像识别领域。

卷积神经网络（CNN）是一种专门处理图像等网格状数据的神经网络。它不像传统神经网络把每个像素都连到每个神经元，而是用一组小型滤波器（kernel）在输入上滑动，检测边缘、纹理、形状等局部特征。多层堆叠之后，网络就能从简单特征逐步组合出复杂的物体识别能力。 CNN 的重要性在于它让现代计算机视觉真正落地。从 2012 年 AlexNet 在 ImageNet 上的突破，到后来的 VGG、ResNet、EfficientNet，CNN 主导了人脸识别、医疗影像、自动驾驶感知、相册自动标签等应用十多年。即使 Vision Transformer 兴起，CNN 凭借高效率与天生的平移不变性，至今仍是移动端和实时视觉任务的主力。一个直观的比喻：想象你拿着一个小放大镜扫过整张照片，每个位置记下看到的东西。第一轮看到边缘，第二轮在这些笔记上找出角点，第三轮认出眼睛或车轮，最后就能判断这是猫还是车。每个"放大镜"就是一个学到的卷积滤波器，而 pooling 层负责汇总区域信息，让网络不必在意物体的精确位置。延伸概念：pooling、ResNet、Vision Transformer (ViT)、特征图、ImageNet、反向传播。