Photo by rawkkim on Unsplash

“한꾹인”만 알아볼 수 있는 글 해석하기

Jungwon Seo
5 min readOct 4, 2020

--

우리가 외국인일 때 이와 같은 리뷰를 받는다면!!?

코로나 이전, 해외여행을 많이 다니던 시기에 위와 같은 리뷰가 각종 유머 페이지에 자주 등장하곤 했습니다.

만약 외국인의 입장에서 저 글을 구글 번역기로 번역하면 어떻게 될까요?

구글 번역기 결과

네, 그냥 무관한 내용이 나오죠 😅

파파고로 한번 돌려볼까요?

파파고 결과

번역은 다르지만, 역시 무관한 내용이 나옵니다.

이번 포스팅에서는 Naver에 있는 AI 서비스들을 사용해서 한번 위의 글을 최대한 번역할 수 있게 해 보겠습니다!

0. 실험 계획

우선 기대하는 바는, 원본 (한국인만 알아볼 수 있는) 글에서 위와 같이 OCR, TTS, STT 과정을 거치면서 문법에 맞는 한글로 변환되는 과정을 기대하고 있습니다. 특히 TTS나 STT에는 언어 모델이 들어 있을 것이기 때문에, 잘 되지 않을까 하는 막연한 생각을 했습니다.

결국에는 저희가 왼쪽글을 이해할 수 있는 이유도 머릿속으로 소리내어 읽어보니 익숙한 소리기 때문에 알아 들을 수 있는 것 처럼 STT, TTS가 그 과정을 대체 할 수 있을 거라고 생각 했습니다.

1. 이미지를 텍스트로

이 부분은 위의 텍스트가 있다면 크게 상관은 없지만, Naver OCR을 테스트해보고 싶어서 추가했습니다.

'한국인뜰만알아뽈쑤있께짝썽하껬씁니따. 히까씨이케부쿠로역에썬 30초또안껄릴만끔가깝찌만쑥쏘까많이낙후뙤어있꼬 엘베없꼬4층이라짐많으면깨꼬쌩합니따. 빠뀌뻘레나왔꼬 화짱씰 많이낡았씁니따. 끄래써 똥 역화짱씰까써 쌌씁니따 쩔때 여끼로오찌마쎄요! 뜨럽꼬 낡꼬 꼐딴을 좋아하씨는 뿐만 까쎄요!'

네 일단 OCR결과는 원본 그대로 잘 나온 것 같습니다.

2. 텍스트를 오디오로

이번엔 Clova TTS API를 활용하여 위에서 추출 한 텍스트를 오디오 파일로 만들겠습니다.

--

--