EfficientDet: Scalable and Efficient Object Detection

<aside> 💡 P Stage3에서 Segmentation, Detection 대회를 진행하면서 성능과 효율 두 마리 토끼를 다 잡을 수 있었던 EfficientDet 모델을 알게 되었고, 어떤 아이디어에서부터 시작됐는지, 어떻게 두 마리 토끼를 다 잡을 수 있었는지 알아보고 대회에 적용해보기 위해 논문을 찾아 봄.

</aside>

`EfficientDet`을 알기 위해서는 우선 `EfficientNet`을 알아야 한다.

✔️EfficientNet

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

CNN에서 성능(accuracy)을 올리기 위해 기존 모델을 확장시키는 방법을 주로 사용해 왔다. 유명한 모델 중 하나인 resnet으로 예를 들 수 있다. (resnet18, resnet50, resnet101...)

위의 그림과 같이 model을 확장시키는 다양한 방법들이 있다.

width scaling : filter의 개수(channel 수)를 늘려줌
depth scaling : layer를 더 깊게 쌓는다.
resolution scaling : input image의 해상도를 높여준다. (ex: (512, 512) → (640, 640))
compound scaling : 위 3가지 방법을 모두 사용하는 것. 기존 방식들은 이를 잘 사용하지 않음.

본 논문에서는 width($w$), depth($d$), resolution($r$) 세 가지를 나누어 하나의 scale factor만 변화시키며 정확도를 측정함. 아래의 결과를 보면 resolution을 키웠을 때, 나머지 factor보다 꾸준히 성능이 증가하는 것을 볼 수 있다.

아래는 위 그림과 비슷하게 depth, resolution를 고정시키고 width의 변화만 주면서 정확도가 어떻게 변하는지 확인한 실험. depth보다는 resolution을 키우는 것이 정확도 향상에 더욱 효과적인 것을 알 수 있다. 또한 1개 혹은 2개의 factor보다 3가지(width, depth, resolution) 모두 키워주는 것**(이하 Compound Scaling)**이 가장 성능 향상 효과를 많이 보았다.

EfficientDet을 알기 위해서는 우선 EfficientNet을 알아야 한다.

✔️EfficientNet

`EfficientDet`을 알기 위해서는 우선 `EfficientNet`을 알아야 한다.