Notice

Recent Posts

Tags more

Archives

관리 메뉴

ComputerVision Jack

Feature Pyramid Networks for Object Detection 본문

Reading Paper/Object Detection

JackYoon 2022. 3. 31. 10:18

Abstract

feature pyramids는 다른 크기의 object detection 위한 recognition systems에서 기본적인 요소이다. 그러나 최근 deep learning 사용하는 object detection은 feature pyramids 사용을 피해왔다. 왜냐하면 compute와 memory가 방대해지기 때문이다.
논문에서 저자들은 deep convolutional networks에 포함되어 있는 multi-scale pyramidal hierarchy 활용하여 비용 측면을 고려한 feature pyramids 설계한다.
top-down 구조는 문자 그대로 모든 크기에서 높은 단계의 semantic feature maps 연결을 설계하는 방법이다. 이러한 구조는 Feature Pyramid Network(FPN) 불리며 여러 application 안의 feature extractor에서 중요한 향상을 가져온다.

Introduction

image pyramids 위에 세워진 feature pyramids는 Figure 1-(a) 이다. 이러한 pyramid는 객체의 크기 변화에 대한 offset에 대해 pyramid 단계를 이동하기 때문에 크기 변화에 대해 강인하다. 직관적으로, 이 방법은 모델이 pyramid 단계에 대해 위치를 감지하기 때문에 광범위한 크기의 객체를 감지할 수 있다.
Figure 1-(b) ConvNets은 강인하지만, pyramids 여전히 정확도를 높이기 위해선 필요하다. 이점의 원칙은 image pyramid는 다양한 크기의 feature representation 생산하고 이는 모든 단계의 high-resolution 단계의 feature 것이다.
그럼에도 불구하고, image pyramid의 각 단계를 추출하는 것은 명백히 제한이 잇다. inference 시간이 증가한다. 이는 real application에 적합하지 않다.
그러나 image pyramid가 multi-scale feature representation 추출하는 유일한 방법이 아니다. deep ConvNet의 경우 layer by layer 연산이 진행된다. 이 과정에서 feature hierarchy는 inherent multi-scale 갖는다. in-network에서 feature hierarchy는 다양한 공간적 resolution에서 feature map 생산한다.
논문의 목적은 ConvNet’s feature 사용하여 다양한 크기에 대한 feature pyramid 만드는 것이다. 이는 low-resolution과 high-resolution 결합하는 구조에 있다. Figure 1-(d) 참조.

저자들의 방법은 feature pyramid 구조에서 각 단계에 맞게 prediction 독립적으로 진행하는 것이다. Figure 2-bottom 참고. 결과적으로 FPNs는 state-of-the-art 방법 보다 정확도가 높다. 게다가 single-scale baseline에서 inference 시간에 대한 증가가 이루어지지 않는다.

Related Work

Hand-engineered features and early neural networks.

HOG features과 SIFT features 전체적인 image pyramid에 밀집되어 연산 된다. 이러한 features 토대로 생성된 pyramids는 image classification, object detection, human pose estimation과 같은 방대한 작업에 사용된다.
HOG와 SIFT 전에, ConvNets 진행된 초기 face detection 경우, face scale에 대응하기 위해 image pyramid 기반으로 얇은 network에서 연산이 진행되었다.

Deep ConvNet object detectors.

최근 Faster R-CNN은 single scale에서 계산된 features 사용하는 것은 옹호한다. 왜냐하면 accuracy와 speed 사이의 좋은 trade-off 제공하기 때문이다. 그러나 multi-scale detection 여전히 small object 검출에 관해 성능 관점에서 좋다.

Methods using multiple layers

많은 최근 접근은 ConvNet의 다른 layers 사용하여 detection과 segmentation 향상 시켰다. 여러 다른 접근은 predictor가 연산하기 전에 multiple layer 나온 features에 대해 concatenate 한다. SSD와 MS-CNN은 multiple layer의 feature 계층에서 features와 scores 결합 없이 예측을 진행한다.
비록 이러한 방법은 pyramid shape 구조를 채택한다. 하지만 각 단계에서 독립적으로 prediction 진행하는 featurized image pyramid와 다르다. (Figure 2-top) 하지만 위와 같은 image pyramid도 여전히 multiple scalesdptj 객체를 인식하는데 필요하다.

Feature Pyramid Networks

해당 목적은 ConvNet’s pyramid feature 계층 구조의 영향력이다. 이는 low level에서 high level까지 분별 있는 feature 갖는다. 그리고 out 통한 high level의 feature 토대로 feature pyramid 설계한다.
저자들의 방법은 임의의 크기를 갖는 단일 이미지를 입력으로 사용하고, fully convolutional 방법으로 여러 단계에서 feature map 추출한다.
pyramid 구조는 bottom-up, top-down 연결을 포함한다.

Bottom-up pathway.

bottom-up pathway 경우 backbone ConvNet에 대한 feed-forward computation 이며, scaling step = 2의 feature map 이루어진 feature 계층을 연산한다.
같은 크기의 output maps 생산하는 다수의 layer가 있으며 이 layer는 network의 stage와 같다.
pyramid 보완하기 위해, 각 단계의 최종 output feature-map 집합을 참조한다. 이러한 선택이 자연스러운 이유는 각 단계의 최종 layer는 강한 features 갖기 때문이다.

Top-down pathway and lateral connections.

top-down pathway 경우 공간적 측면으로 upsample 진행되어 높은 해상도의 features 흐려질 수 있지만, 의미론적 부분에서 강하다. feature map이 높은 pyramid 단계에서 오기 때문이다. 이러한 feature는 bottom-up pathway 에서 connection 통해 보강될 수 있다.
각 connection은 같은 공간적 크기로 bottom-up path와 top-down path 통합한다. bottom-up feature map 경우 낮은 단계이긴 하지만 공간적인 정보를 더 많이 포함하고 있다.
Figure 3 토대로 각 해상도의 feature map에 대해 factor = 2 upsample 한다. upsampled map은 element-wise addition 통해 bottom-up map과 통합된다.
pyramid feature map ${{P_2, P_3, P_4, P_5}}$ 은 backbone stage ${C_2, C_3, C_4, C_5}$ 와 같은 공간적 크기를 갖는다.
pyramid 모든 단계는 같은 image pyramid에서 사용된 것과 같게 classifier/regressors 공유하기 때문에 모든 feature map에 대해 고정된 feature dimension 사용한다.

Conclusion

YOLOv3: An Incremental Improvement (0)	2022.04.14
Focal Loss for Dense Object Detection (0)	2022.03.31
YOLO 90000: Better, Faster, Stronger (0)	2022.03.30
SSD: Single Shot MultiBox Detector (0)	2022.03.30
You Only Look Once: Unified, Real-Time Object Detection (0)	2022.03.30

'Reading Paper/Object Detection' Related Articles

Comments