deep-text-recognition-benchmark (Custom Data로 학습하기)

<aside> 💡 팀원들과 OCR관련 프로젝트로 serving까지 해보려고 어느정도 성능이 보장되고 inference time이 짧은 모델을 찾던 중 네이버에서 OCR 관련 논문이 있어서 읽어보게 되었다.

</aside>

Abstract


최근 STR 모델에 관한 새로운 제안들이 많이 소개 되었다. 각각의 주장(논문)들은 기술의 한계를 넘어 섰지만 데이터 셋이 제 각각이라 공정한 비교가 불가능하다.

본 논문은 크게 3가지를 기여했다고 한다.

  1. train, evaluation 데이터셋의 불일치와 이로 인한 성능 차이를 조사함.
  2. 대부분의 기존 STR모델에 fit한(적용할 수 있는?) 통합된 4 stage STR 프레임 워크를 소개함.
  3. 일관된 training, evaluation 데이터셋에서 정확성, 속도, 메모리 측면에서 성능에 대한 모듈 별 기여도를 분석한다.

1. Introduce


STR은 다양한 산업 분야에서 매우 중요한 task. OCR시스템의 성숙(발전)으로 깨끗한 문서에 대해서는 성공정인 성능을 보여주지만 대부분의 기존 OCR 방법은 STR task에서 효과적이지 못하다고 한다. 그 이유는 다음과 같다.

  1. real-world에서 발생하는 다양한 텍스트 모양 (뒤집어져 있거나 원형으로 글자가 배치 되어있거나.. 그런 것을 말하는 듯 함.)
  2. 캡쳐된 scene의 상태가 완전하지 않음 (text가 가려져 있거나 선명하게 글자가 보이지 않는 경우)