최근 게시물

DIY-호작질 more

쓰기

Tesseract나 EasyOCR의 성능을 높이려면 어떻게 해야하나요?

정의석

03-28

2025-03-28 20:46:01

조회 257 추천 0

쪽팔리면 질문하지 맙시다. 소중한 답변 댓글을 삭제하는건 부끄러운 일 입니다

얼마전 OCR관련해서 질문을 했더니, Tesseract를 추천해 주셔서 AI의 힘들 빌어서 간단하게 코드를 작성했습니다.

그런데, 제가 생각했던것 보다 성능이 훨씬 안좋았습니다.

사람이 쓴 글씨를 촬영하거나 스캔한 파일은 아니고, 주로 컴퓨터나 스마트폰 캡처사진의 한글/영문/숫자를 인식해야 하는 상황입니다.,

OCR 하기전에 Gray처리를 한다거나 하는 것들은 해 봤는데, 큰 의미는 없었습니다. 오히려 나빠지는 경우도 있었고요....

인터넷을 찾아보니 Tesseract에 추가로 학습을 시켜야 한다는 것 같은데, 학습을 시키기 위한 자료는 제가 직접 만들어야 하는지요? 아니면 이런 학습자료도 공개된 것이 있을까요?

아니면 추가 학습이 된 Tesseract 라이브러리가 있을까요?

추가로,,, Tesseract 라이브러리의 경로에 한글이 포함되어 있는 경우 잘 안되는것 같습니다. 아예 안되는 것도 아니고, 좀 이상합니다. 경로에 한글이 없는 디렉토리 위치(1번위치)에서 한번 실행해 주고 나면, 한글이 있는 디렉토리 위치(2번위치)로 옮겨도 잘 됩니다. 물론 1번위치의 라이브러리는 지우고 2번위치에만 라이브러리가 있는 상태입니다. AI에게 물어보니 가능하면 한글이 없는 위치에 두라고 하더라고요.. easyocr은 아무런 문제가 없습니다.

짧은글 일수록 신중하게.



검은콩 03-28 오픈 모델은 한국어 다 잼병입니다 하다못해 gemini flash 이미지 ocr 추천드립니다 오픈 모델은 한국어 다 잼병입니다 하다못해 gemini flash 이미지 ocr 추천드립니다



정의석 03-28 아.. 오프라인 환경에서 해야 해서요. ㅠㅠ 아.. 오프라인 환경에서 해야 해서요. ㅠㅠ



검은콩 03-28 차라리 gemma 27b 를 GPU 에 로드하시고 짧은 이미지로 인식하게 하는 게 적중률이 더 높습니다 .... 오픈소스 답 없습니다. 차라리 gemma 27b 를 GPU 에 로드하시고 짧은 이미지로 인식하게 하는 게 적중률이 더 높습니다 .... 오픈소스 답 없습니다.



프리파파 03-28 Paddleocr 추천 합니다 중국 바이두에서 제작한거라고 하고 경험상 한글 인식율이 꽤 좋았습니다 https://github.com/PaddlePaddle/PaddleOCR Paddleocr 추천 합니다 중국 바이두에서 제작한거라고 하고 경험상 한글 인식율이 꽤 좋았습니다 https://github.com/PaddlePaddle/PaddleOCR



정의석 03-29 테서랙트랑 이지오씨알만 알았는데, 패들오씨알도 있었군요. 한번 해 보겠습니다. 테서랙트랑 이지오씨알만 알았는데, 패들오씨알도 있었군요. 한번 해 보겠습니다.



씨디공장 03-29 테서렉트를 그대로 쓰기엔 인식률이 많이 떨어집니다. 학습 시킬려면 모든걸 직접 하셔야 합니다. 되도록 표준화된 이미지 (이진화 원근변환 필수) 학습 시키길 권장 드리며 해당 소스코드는 검색으로 쉽게 찾으실 수 있습니다. 그렇다고 다른 ocr 이 완벽하다는건 아닙니다. 많은 가공이 필요하며 (이진화 및 기준점 변경, 글자 필터, 학습, 이미지 크기 변경, 원근변환 등) 만능이 아니라는 점을 아셨으면 합니다. 어떤거든 원하시는 만큼 100프로에 가깝게는 제공을 못해줄겁니다. 테서렉트를 그대로 쓰기엔 인식률이 많이 떨어집니다. 학습 시킬려면 모든걸 직접 하셔야 합니다. 되도록 표준화된 이미지 (이진화 원근변환 필수) 학습 시키길 권장 드리며 해당 소스코드는 검색으로 쉽게 찾으실 수 있습니다. 그렇다고 다른 ocr 이 완벽하다는건 아닙니다. 많은 가공이 필요하며 (이진화 및 기준점 변경, 글자 필터, 학습, 이미지 크기 변경, 원근변환 등) 만능이 아니라는 점을 아셨으면 합니다. 어떤거든 원하시는 만큼 100프로에 가깝게는 제공을 못해줄겁니다.

로그인 하시면 댓글을 남길 수 있습니다

쓰기

그룹	게시판	제목	글쓴이	날짜	조회
2CPU	판매	[미니PC] HP 600 G4 35W Mini 6C i5-8500T… (1) bizwiz 13:20	bizwiz	13:20	9	[미니PC] HP 600 G4 35W Mini 6C i5-8500T… (1) 2CPU : 판매 13:20 9 bizwiz
2CPU	판매	[노트북 도킹] Dell USB-C Dock WD19 WD19… (1) bizwiz 13:18	bizwiz	13:18	6	[노트북 도킹] Dell USB-C Dock WD19 WD19… (1) 2CPU : 판매 13:18 6 bizwiz
2CPU	판매	[DDR4 PC] 노트북 메모리 RAM 16GB 8GB PC… (1) bizwiz 13:16	bizwiz	13:16	18	[DDR4 PC] 노트북 메모리 RAM 16GB 8GB PC… (1) 2CPU : 판매 13:16 18 bizwiz
2CPU	QnA	발전기와 인버터 문의 (3) 정의석 12:52	정의석	12:52	57	발전기와 인버터 문의 (3) 2CPU : QnA 12:52 57 정의석
2CPU	판매	EMC DS-6505B (1) ser워드 12:46	ser워드	12:46	59	EMC DS-6505B (1) 2CPU : 판매 12:46 59 ser워드
2CPU	판매	슈퍼마이크로 2노드 4CPU 서버(227TS-X11) (1) ser워드 12:43	ser워드	12:43	53	슈퍼마이크로 2노드 4CPU 서버(227TS-X11) (1) 2CPU : 판매 12:43 53 ser워드
2CPU	판매	골드 5218, 실버 4215 CPU (1) ser워드 12:42	ser워드	12:42	43	골드 5218, 실버 4215 CPU (1) 2CPU : 판매 12:42 43 ser워드
2CPU	판매	LENOVO SR850 (MT-M 7X19) 베어본 (1) 최재정2cpu 12:41	최재정2cpu	12:41	77	LENOVO SR850 (MT-M 7X19) 베어본 (1) 2CPU : 판매 12:41 77 최재정2cpu
2CPU	판매	ARUBA 3810M JL075A 스위치 (1) 최재정2cpu 12:38	최재정2cpu	12:38	32	ARUBA 3810M JL075A 스위치 (1) 2CPU : 판매 12:38 32 최재정2cpu
2CPU	판매	QNAP NAS TS-853U-RP 3.5 8베이 (1) 최재정2cpu 12:36	최재정2cpu	12:36	83	QNAP NAS TS-853U-RP 3.5 8베이 (1) 2CPU : 판매 12:36 83 최재정2cpu
2CPU	자유게시판	현대차, 자율주행 화장실 출시 (5) 꿀벌l최인혁 12:31	꿀벌l최인혁	12:31	130	현대차, 자율주행 화장실 출시 (5) 2CPU : 자유게시판 12:31 130 꿀벌l최인혁
2CPU	판매	(판매중) IBM / Lenovo 서버 3.5" 트레이 … (1) 멀더요원 12:22	멀더요원	12:22	49	(판매중) IBM / Lenovo 서버 3.5" 트레이 … (1) 2CPU : 판매 12:22 49 멀더요원
2CPU	UnBoxing	(무분수령)수퍼싸이언님 공유기 쌍cpu 12:08	쌍cpu	12:08	46	(무분수령)수퍼싸이언님 공유기 2CPU : UnBoxing 12:08 46 쌍cpu
2CPU	자유게시판	만우절 인데 조용하네요 (5) 아이브릿지 12:07	아이브릿지	12:07	115	만우절 인데 조용하네요 (5) 2CPU : 자유게시판 12:07 115 아이브릿지
2CPU	판매	[판매] (가격수정) Keyboard / Mouse SET (1) 광주동키호테 11:55	광주동키호테	11:55	193	[판매] (가격수정) Keyboard / Mouse SET (1) 2CPU : 판매 11:55 193 광주동키호테