物体検知系のネットワークの解説リンクまとめ
物体検知問題を解くための様々なネットワークについて調べていたので、備忘録も兼ねて参考になったリンクをまとめておく。
全般
下記の記事に目を通しておけば、たいていのネットワークの知識は網羅できる。
Deep Learningによる一般物体検出アルゴリズムの紹介
各ネットワークの参考リンク
R-CNN
- 2012年のILSVRCで圧勝したモデル
- 物体の候補の選定、CNNによる画像特徴量の抽出、SVMによる分類という3つのモデルを複合している
- 選定した候補ごとにCNNにかけるので、非常に重い
- モデルそれぞれ別々に学習しなければならず、チューニングしづらい
SPPNet
- 選定した候補ごとにCNNにかける代わりに、1回の畳込みで可変の領域の特徴量を抽出する
- 特徴量抽出まではR-CNNに比べて非常に速くなったが、相変わらず一つのネットワークではないためチューニングしづらい
Fast R-CNN
- RoI Poolingという、多様なサイズの畳込みを行うプーリング操作を行い、領域候補の特徴量抽出を高速化
- バウンディングボックスと分類のそれぞれを同時に学習することで、領域候補提示より後の一つのネットワークでの学習を可能とした
論文紹介: Fast R-CNN&Faster R-CNN
what is ROI layer in fast rcnn?
Faster R-CNN
- 領域候補の提案をRPN(Region Proposal Network)というネットワークで実現し、全ての層を一つのネットワークにすることができた
私がわかりにくいと思った「Faster RCNN」のポイントの解説
論文紹介: Fast R-CNN&Faster R-CNN
YOLO
- 画像をセルに分割し、セルごとにバウンディングボックスの提案を行う
- 各セルに対し、各クラスである条件付き確率を割り当てる
オブジェクト検出 YOLO YOLO — You only look once, real time object detection explained
SSD
- サイズの異なるfeature mapを多数抽出し、それぞれにバウンディングボックスを提案させる
リアルタイム物体検出向けニューラルネット、SSD(Single Shot Multi Detector)及びその派生モデルの解説
RetinaNet
- Negativeだとすぐ分かるようなバウンディングボックスに小さな重みをつけるような損失関数を使うことで、価値ある教師データでのみ学習できるようになり、学習効率が向上