일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 가우시안 필터링
- Pytorch Lecture
- 해리스 코너 검출
- 케라스 정리
- 모두의 딥러닝 예제
- c++공부
- 파이토치
- 딥러닝
- TensorFlow
- MFC 프로그래밍
- matlab 영상처리
- tensorflow 예제
- object detection
- 딥러닝 스터디
- 파이토치 강의 정리
- 김성훈 교수님 PyTorch
- pytorch
- 미디언 필터링
- 컴퓨터 비전
- c++
- 딥러닝 공부
- c언어 정리
- 팀프로젝트
- 파이토치 김성훈 교수님 강의 정리
- C언어 공부
- 영상처리
- c언어
- pytorch zero to all
- 골빈해커
- 모두의 딥러닝
Archives
- Today
- Total
ComputerVision Jack
Feature Pyramid Networks for Object Detection 본문
Reading Paper/Object Detection
Feature Pyramid Networks for Object Detection
JackYoon 2022. 3. 31. 10:18반응형
Feature Pyramid Networks for Object Detection
Abstract
feature pyramids
는 다른 크기의 object detection 위한 recognition systems에서 기본적인 요소이다. 그러나 최근 deep learning 사용하는 object detection은 feature pyramids 사용을 피해왔다. 왜냐하면compute
와memory
가 방대해지기 때문이다.- 논문에서 저자들은 deep convolutional networks에 포함되어 있는
multi-scale pyramidal hierarchy
활용하여 비용 측면을 고려한 feature pyramids 설계한다. top-down
구조는 문자 그대로 모든 크기에서 높은 단계의 semantic feature maps 연결을 설계하는 방법이다. 이러한 구조는 Feature Pyramid Network(FPN) 불리며 여러 application 안의 feature extractor에서 중요한 향상을 가져온다.
Introduction
image pyramids
위에 세워진feature pyramids
는 Figure 1-(a) 이다. 이러한 pyramid는 객체의 크기 변화에 대한 offset에 대해 pyramid 단계를 이동하기 때문에 크기 변화에 대해 강인하다. 직관적으로, 이 방법은 모델이 pyramid 단계에 대해 위치를 감지하기 때문에 광범위한 크기의 객체를 감지할 수 있다.- Figure 1-(b)
ConvNets
은 강인하지만, pyramids 여전히 정확도를 높이기 위해선 필요하다. 이점의 원칙은 image pyramid는 다양한 크기의 feature representation 생산하고 이는 모든 단계의 high-resolution 단계의 feature 것이다. - 그럼에도 불구하고, image pyramid의 각 단계를 추출하는 것은 명백히 제한이 잇다. inference 시간이 증가한다. 이는 real application에 적합하지 않다.
- 그러나 image pyramid가 multi-scale feature representation 추출하는 유일한 방법이 아니다. deep ConvNet의 경우 layer by layer 연산이 진행된다. 이 과정에서 feature hierarchy는 inherent multi-scale 갖는다. in-network에서 feature hierarchy는 다양한 공간적 resolution에서 feature map 생산한다.
- 논문의 목적은 ConvNet’s feature 사용하여 다양한 크기에 대한 feature pyramid 만드는 것이다. 이는 low-resolution과 high-resolution 결합하는 구조에 있다. Figure 1-(d) 참조.
- 저자들의 방법은 feature pyramid 구조에서 각 단계에 맞게
prediction
독립적으로 진행하는 것이다. Figure 2-bottom 참고. 결과적으로 FPNs는 state-of-the-art 방법 보다 정확도가 높다. 게다가 single-scale baseline에서 inference 시간에 대한 증가가 이루어지지 않는다.
Related Work
Hand-engineered features and early neural networks.
HOG features
과SIFT features
전체적인 image pyramid에 밀집되어 연산 된다. 이러한 features 토대로 생성된 pyramids는 image classification, object detection, human pose estimation과 같은 방대한 작업에 사용된다.- HOG와 SIFT 전에, ConvNets 진행된 초기 face detection 경우, face scale에 대응하기 위해 image pyramid 기반으로 얇은 network에서 연산이 진행되었다.
Deep ConvNet object detectors.
- 최근 Faster R-CNN은
single scale
에서 계산된 features 사용하는 것은 옹호한다. 왜냐하면 accuracy와 speed 사이의 좋은 trade-off 제공하기 때문이다. 그러나multi-scale
detection 여전히 small object 검출에 관해 성능 관점에서 좋다.
Methods using multiple layers
- 많은 최근 접근은 ConvNet의 다른 layers 사용하여 detection과 segmentation 향상 시켰다. 여러 다른 접근은 predictor가 연산하기 전에 multiple layer 나온 features에 대해
concatenate
한다. SSD와 MS-CNN은 multiple layer의 feature 계층에서 features와 scores 결합 없이 예측을 진행한다. - 비록 이러한 방법은 pyramid shape 구조를 채택한다. 하지만 각 단계에서 독립적으로 prediction 진행하는
featurized image pyramid
와 다르다. (Figure 2-top) 하지만 위와 같은 image pyramid도 여전히 multiple scalesdptj 객체를 인식하는데 필요하다.
Feature Pyramid Networks
- 해당 목적은
ConvNet’s pyramid feature
계층 구조의 영향력이다. 이는 low level에서 high level까지 분별 있는 feature 갖는다. 그리고out
통한 high level의 feature 토대로 feature pyramid 설계한다. - 저자들의 방법은 임의의 크기를 갖는 단일 이미지를 입력으로 사용하고,
fully convolutional
방법으로 여러 단계에서 feature map 추출한다. - pyramid 구조는
bottom-up
,top-down
연결을 포함한다.
Bottom-up pathway.
bottom-up pathway
경우 backbone ConvNet에 대한feed-forward computation
이며,scaling step = 2
의 feature map 이루어진 feature 계층을 연산한다.- 같은 크기의 output maps 생산하는 다수의 layer가 있으며 이
layer
는 network의stage
와 같다. - pyramid 보완하기 위해, 각 단계의 최종 output feature-map 집합을 참조한다. 이러한 선택이 자연스러운 이유는 각 단계의 최종 layer는 강한 features 갖기 때문이다.
Top-down pathway and lateral connections.
top-down pathway
경우 공간적 측면으로upsample
진행되어 높은 해상도의 features 흐려질 수 있지만, 의미론적 부분에서 강하다. feature map이 높은 pyramid 단계에서 오기 때문이다. 이러한 feature는 bottom-up pathway 에서connection
통해 보강될 수 있다.- 각 connection은 같은 공간적 크기로 bottom-up path와 top-down path 통합한다. bottom-up feature map 경우 낮은 단계이긴 하지만 공간적인 정보를 더 많이 포함하고 있다.
- Figure 3 토대로 각 해상도의 feature map에 대해
factor = 2
upsample 한다. upsampled map은element-wise addition
통해 bottom-up map과 통합된다. - pyramid feature map ${{P_2, P_3, P_4, P_5}}$ 은 backbone stage ${C_2, C_3, C_4, C_5}$ 와 같은 공간적 크기를 갖는다.
- pyramid 모든 단계는 같은 image pyramid에서 사용된 것과 같게 classifier/regressors 공유하기 때문에 모든 feature map에 대해 고정된
feature dimension
사용한다.
Conclusion
- 논문에서 ConvNets 안에 feature pyramids 구축하기 위한 분명하고 간단한 방법을 제안한다.
- feature pyramids 사용할 때, image pyramid에서 사용된 연산이 필요 없고 실용적인 해결을 제공할 수 있도록 한다.
반응형
'Reading Paper > Object Detection' 카테고리의 다른 글
YOLOv3: An Incremental Improvement (0) | 2022.04.14 |
---|---|
Focal Loss for Dense Object Detection (0) | 2022.03.31 |
YOLO 90000: Better, Faster, Stronger (0) | 2022.03.30 |
SSD: Single Shot MultiBox Detector (0) | 2022.03.30 |
You Only Look Once: Unified, Real-Time Object Detection (0) | 2022.03.30 |
Comments