관리 메뉴

ComputerVision Jack

Feature Pyramid Networks for Object Detection 본문

Reading Paper/Object Detection

Feature Pyramid Networks for Object Detection

JackYoon 2022. 3. 31. 10:18
반응형

Feature Pyramid Networks for Object Detection

Abstract

  • feature pyramids는 다른 크기의 object detection 위한 recognition systems에서 기본적인 요소이다. 그러나 최근 deep learning 사용하는 object detection은 feature pyramids 사용을 피해왔다. 왜냐하면 computememory가 방대해지기 때문이다.
  • 논문에서 저자들은 deep convolutional networks에 포함되어 있는 multi-scale pyramidal hierarchy 활용하여 비용 측면을 고려한 feature pyramids 설계한다.
  • top-down 구조는 문자 그대로 모든 크기에서 높은 단계의 semantic feature maps 연결을 설계하는 방법이다. 이러한 구조는 Feature Pyramid Network(FPN) 불리며 여러 application 안의 feature extractor에서 중요한 향상을 가져온다.

Introduction

Figure 1

  • image pyramids 위에 세워진 feature pyramidsFigure 1-(a) 이다. 이러한 pyramid는 객체의 크기 변화에 대한 offset에 대해 pyramid 단계를 이동하기 때문에 크기 변화에 대해 강인하다. 직관적으로, 이 방법은 모델이 pyramid 단계에 대해 위치를 감지하기 때문에 광범위한 크기의 객체를 감지할 수 있다.
  • Figure 1-(b) ConvNets은 강인하지만, pyramids 여전히 정확도를 높이기 위해선 필요하다. 이점의 원칙은 image pyramid는 다양한 크기의 feature representation 생산하고 이는 모든 단계의 high-resolution 단계의 feature 것이다.
  • 그럼에도 불구하고, image pyramid의 각 단계를 추출하는 것은 명백히 제한이 잇다. inference 시간이 증가한다. 이는 real application에 적합하지 않다.
  • 그러나 image pyramid가 multi-scale feature representation 추출하는 유일한 방법이 아니다. deep ConvNet의 경우 layer by layer 연산이 진행된다. 이 과정에서 feature hierarchy는 inherent multi-scale 갖는다. in-network에서 feature hierarchy는 다양한 공간적 resolution에서 feature map 생산한다.
  • 논문의 목적은 ConvNet’s feature 사용하여 다양한 크기에 대한 feature pyramid 만드는 것이다. 이는 low-resolution과 high-resolution 결합하는 구조에 있다. Figure 1-(d) 참조.

Figure2

  • 저자들의 방법은 feature pyramid 구조에서 각 단계에 맞게 prediction 독립적으로 진행하는 것이다. Figure 2-bottom 참고. 결과적으로 FPNs는 state-of-the-art 방법 보다 정확도가 높다. 게다가 single-scale baseline에서 inference 시간에 대한 증가가 이루어지지 않는다.

Related Work

Hand-engineered features and early neural networks.

  • HOG featuresSIFT features 전체적인 image pyramid에 밀집되어 연산 된다. 이러한 features 토대로 생성된 pyramids는 image classification, object detection, human pose estimation과 같은 방대한 작업에 사용된다.
  • HOG와 SIFT 전에, ConvNets 진행된 초기 face detection 경우, face scale에 대응하기 위해 image pyramid 기반으로 얇은 network에서 연산이 진행되었다.

Deep ConvNet object detectors.

  • 최근 Faster R-CNNsingle scale에서 계산된 features 사용하는 것은 옹호한다. 왜냐하면 accuracy와 speed 사이의 좋은 trade-off 제공하기 때문이다. 그러나 multi-scale detection 여전히 small object 검출에 관해 성능 관점에서 좋다.

Methods using multiple layers

  • 많은 최근 접근은 ConvNet의 다른 layers 사용하여 detection과 segmentation 향상 시켰다. 여러 다른 접근은 predictor가 연산하기 전에 multiple layer 나온 features에 대해 concatenate 한다. SSDMS-CNN은 multiple layer의 feature 계층에서 features와 scores 결합 없이 예측을 진행한다.
  • 비록 이러한 방법은 pyramid shape 구조를 채택한다. 하지만 각 단계에서 독립적으로 prediction 진행하는 featurized image pyramid와 다르다. (Figure 2-top) 하지만 위와 같은 image pyramid도 여전히 multiple scalesdptj 객체를 인식하는데 필요하다.

Feature Pyramid Networks

Figure3

  • 해당 목적은 ConvNet’s pyramid feature 계층 구조의 영향력이다. 이는 low level에서 high level까지 분별 있는 feature 갖는다. 그리고 out 통한 high level의 feature 토대로 feature pyramid 설계한다.
  • 저자들의 방법은 임의의 크기를 갖는 단일 이미지를 입력으로 사용하고, fully convolutional 방법으로 여러 단계에서 feature map 추출한다.
  • pyramid 구조는 bottom-up, top-down 연결을 포함한다.

Bottom-up pathway.

  • bottom-up pathway 경우 backbone ConvNet에 대한 feed-forward computation 이며, scaling step = 2의 feature map 이루어진 feature 계층을 연산한다.
  • 같은 크기의 output maps 생산하는 다수의 layer가 있으며 이 layer는 network의 stage와 같다.
  • pyramid 보완하기 위해, 각 단계의 최종 output feature-map 집합을 참조한다. 이러한 선택이 자연스러운 이유는 각 단계의 최종 layer는 강한 features 갖기 때문이다.

Top-down pathway and lateral connections.

  • top-down pathway 경우 공간적 측면으로 upsample 진행되어 높은 해상도의 features 흐려질 수 있지만, 의미론적 부분에서 강하다. feature map이 높은 pyramid 단계에서 오기 때문이다. 이러한 feature는 bottom-up pathway 에서 connection 통해 보강될 수 있다.
  • 각 connection은 같은 공간적 크기로 bottom-up path와 top-down path 통합한다. bottom-up feature map 경우 낮은 단계이긴 하지만 공간적인 정보를 더 많이 포함하고 있다.
  • Figure 3 토대로 각 해상도의 feature map에 대해 factor = 2 upsample 한다. upsampled map은 element-wise addition 통해 bottom-up map과 통합된다.
  • pyramid feature map ${{P_2, P_3, P_4, P_5}}$ 은 backbone stage ${C_2, C_3, C_4, C_5}$ 와 같은 공간적 크기를 갖는다.
  • pyramid 모든 단계는 같은 image pyramid에서 사용된 것과 같게 classifier/regressors 공유하기 때문에 모든 feature map에 대해 고정된 feature dimension 사용한다.

Conclusion

  • 논문에서 ConvNets 안에 feature pyramids 구축하기 위한 분명하고 간단한 방법을 제안한다.
  • feature pyramids 사용할 때, image pyramid에서 사용된 연산이 필요 없고 실용적인 해결을 제공할 수 있도록 한다.
반응형
Comments