On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

<aside> 💡 CVPR 2020에 발표된 NAVER CLOVA의 OCR관련 논문이다.

P Stage4에서 수식인식 대회를 진행하면서, 팀 내에서 SATRN을 맡게 되었다. 해당 모델에 대해 이해하면 대회 진행에 도움이 될 것 같아서 논문을 읽게 되었다.

</aside>

Abstract

Scene Text Recognition (STR)은 natural scenes에서 character sequences를 인식하는 문제. STR 기법은 크게 발전했지만 2차원 이미지를 1차원 feature로 변환하는 현재의 방법은 여전히 심하게 휘거나, 회전 or 세로로 정렬된 텍스트와 같이 임의의 shape에 대해서 인식하는 것에 한계가 존재함. 이와 같이 임의의 shape는 일상 생활에 많이 존재함. (레스토랑 간판, 상품 라벨, 회사 로고 등등..)

본 논문에서는 임의의 shape text를 인식할 수 있는 SATRN (Self-Attention Text Recognition Network) 이라는 아키텍쳐를 소개한다. SATRN은 Self-Attentnion 구조를 사용하여 Scene text image에서 character의 공간 종속성(문자가 어떻게 배열되어 있는지)을 설명함.

self-attention 구조의 full-graph propagation을 통해 SATRN은 임의의 배열과 큰 문자간의 간격으로 텍스트를 인식할 수 있음. 우리의 모델은 기존 STR모델의 성능을 능가하고, 해당 모델로 평균 4.5pp라는 큰 마진으로 불규칙, 규칙적 text 두 개의 벤치마크에서 SOTA를 달성.

이전 모델들과의 비교

Abstract

1. Introduction

2. Related Works

2.1. Scene text recognition on arbitrary shapes