常見的 CNN 架構

VGG-16

VGG-16 是一個在 2014 年 ImageNet top-5 分類中達到 92.7% 準確率的網路。它的層結構如下：

如圖所示，VGG 採用傳統的金字塔架構，即一系列的卷積-池化層。

圖片來源：Researchgate

ResNet

ResNet 是由微軟研究院在 2015 年提出的一系列模型。ResNet 的核心概念是使用 殘差塊：

圖片來源：這篇論文

使用身份傳遞的原因是讓我們的層預測 前一層結果與殘差塊輸出之間的差異，因此得名殘差。這些塊更容易訓練，並且可以構建包含數百個這樣的塊的網路（最常見的變體包括 ResNet-52、ResNet-101 和 ResNet-152）。

你也可以將這個網路理解為能夠根據數據集調整其複雜度。最初，在開始訓練網路時，權重值較小，大部分信號通過身份層傳遞。隨著訓練的進行，權重變大，網路參數的重要性增加，網路會調整以適應所需的表達能力，從而正確分類訓練圖像。

Google Inception

Google Inception 架構進一步擴展了這一概念，將每一層構建為多條不同路徑的組合：

圖片來源：Researchgate

在這裡，我們需要強調 1x1 卷積的作用，因為一開始它似乎沒有意義。為什麼需要用 1x1 的濾波器掃描圖像？然而，你需要記住，卷積濾波器也會處理多個深度通道（最初是 RGB 顏色，在後續層中是不同濾波器的通道），而 1x1 卷積用於通過不同的可訓練權重混合這些輸入通道。它也可以被視為在通道維度上的降維（池化）。

這裡有一篇關於 1x1 卷積的好文章，以及原始論文。

MobileNet

MobileNet 是一系列縮小尺寸的模型，適合用於移動設備。如果資源有限，並且可以接受稍微降低的準確率，可以使用它們。其核心概念是所謂的 深度可分離卷積，它允許通過空間卷積和深度通道上的 1x1 卷積的組合來表示卷積濾波器。這大大減少了參數數量，使網路尺寸更小，也更容易用較少的數據進行訓練。

這裡有一篇關於 MobileNet 的好文章。

結論

在本單元中，你已經學習了計算機視覺神經網路的主要概念——卷積網路。用於圖像分類、物體檢測甚至圖像生成的實際架構都基於 CNN，只是層數更多，並且加入了一些額外的訓練技巧。

🚀 挑戰

在附帶的筆記本中，底部有關於如何獲得更高準確率的筆記。進行一些實驗，看看是否能達到更高的準確率。

課後測驗

回顧與自學

雖然 CNN 最常用於計算機視覺任務，但它們通常也適合提取固定大小的模式。例如，如果我們處理聲音，也可以使用 CNN 在音頻信號中尋找某些特定模式——在這種情況下，濾波器將是 1 維的（這種 CNN 被稱為 1D-CNN）。此外，有時也會使用 3D-CNN 來提取多維空間中的特徵，例如視頻中發生的某些事件——CNN 可以捕捉特徵隨時間變化的某些模式。進行一些回顧和自學，了解 CNN 還可以完成哪些其他任務。

作業

在本次實驗中，你的任務是分類不同的貓狗品種。這些圖像比 MNIST 數據集更複雜，尺寸更高，並且類別超過 10 種。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

常見的 CNN 架構

VGG-16

ResNet

Google Inception

MobileNet

結論

🚀 挑戰

課後測驗

回顧與自學

作業

FilesExpand file tree

CNN_Architectures.md

Latest commit

History

CNN_Architectures.md

File metadata and controls

常見的 CNN 架構

VGG-16

ResNet

Google Inception

MobileNet

結論

🚀 挑戰

課後測驗

回顧與自學

作業