쪽팔리면 질문하지 맙시다. 소중한 답변 댓글을 삭제하는건 부끄러운 일 입니다
얼마전 OCR관련해서 질문을 했더니, Tesseract를 추천해 주셔서 AI의 힘들 빌어서 간단하게 코드를 작성했습니다.
그런데, 제가 생각했던것 보다 성능이 훨씬 안좋았습니다.
사람이 쓴 글씨를 촬영하거나 스캔한 파일은 아니고, 주로 컴퓨터나 스마트폰 캡처사진의 한글/영문/숫자를 인식해야 하는 상황입니다.,
OCR 하기전에 Gray처리를 한다거나 하는 것들은 해 봤는데, 큰 의미는 없었습니다. 오히려 나빠지는 경우도 있었고요....
인터넷을 찾아보니 Tesseract에 추가로 학습을 시켜야 한다는 것 같은데, 학습을 시키기 위한 자료는 제가 직접 만들어야 하는지요? 아니면 이런 학습자료도 공개된 것이 있을까요?
아니면 추가 학습이 된 Tesseract 라이브러리가 있을까요?
추가로,,, Tesseract 라이브러리의 경로에 한글이 포함되어 있는 경우 잘 안되는것 같습니다. 아예 안되는 것도 아니고, 좀 이상합니다. 경로에 한글이 없는 디렉토리 위치(1번위치)에서 한번 실행해 주고 나면, 한글이 있는 디렉토리 위치(2번위치)로 옮겨도 잘 됩니다. 물론 1번위치의 라이브러리는 지우고 2번위치에만 라이브러리가 있는 상태입니다. AI에게 물어보니 가능하면 한글이 없는 위치에 두라고 하더라고요.. easyocr은 아무런 문제가 없습니다.
ÇÏ´Ù¸øÇØ gemini flash À̹ÌÁö ocr Ãßõµå¸³´Ï´Ù
Áß±¹ ¹ÙÀ̵ο¡¼ Á¦ÀÛÇѰŶó°í ÇÏ°í
°æÇè»ó ÇÑ±Û ÀνÄÀ²ÀÌ ²Ï ÁÁ¾Ò½À´Ï´Ù
https://github.com/PaddlePaddle/PaddleOCR
ÇнÀ ½Ãų·Á¸é ¸ðµç°É Á÷Á¢ ÇÏ¼Å¾ß ÇÕ´Ï´Ù. µÇµµ·Ï Ç¥ÁØÈµÈ À̹ÌÁö (ÀÌÁøÈ ¿ø±Ùº¯È¯ Çʼö) ÇнÀ ½ÃÅ°±æ ±ÇÀå µå¸®¸ç ÇØ´ç ¼Ò½ºÄÚµå´Â °Ë»öÀ¸·Î ½±°Ô ãÀ¸½Ç ¼ö ÀÖ½À´Ï´Ù.
±×·¸´Ù°í ´Ù¸¥ ocr ÀÌ ¿Ïº®ÇÏ´Ù´Â°Ç ¾Æ´Õ´Ï´Ù. ¸¹Àº °¡°øÀÌ ÇÊ¿äÇϸç (ÀÌÁøÈ ¹× ±âÁØÁ¡ º¯°æ, ±ÛÀÚ ÇÊÅÍ, ÇнÀ, À̹ÌÁö Å©±â º¯°æ, ¿ø±Ùº¯È¯ µî) ¸¸´ÉÀÌ ¾Æ´Ï¶ó´Â Á¡À» ¾Æ¼ÌÀ¸¸é ÇÕ´Ï´Ù.
¾î¶²°Åµç ¿øÇϽô ¸¸Å 100ÇÁ·Î¿¡ °¡±õ°Ô´Â Á¦°øÀ» ¸øÇØÁÙ°Ì´Ï´Ù.