solr(lucene)이나 elasticsearch의 예제들이 없을까요?

쓰기

solr(lucene)이나 elasticsearch의 예제들이 없을까요?

강물처럼

2016-03

2016-03-11 01:52:38

조회 5161 추천 0

특정파일의 내부를 찾는(PDF) 검색엔진을 구현하고 싶은데, 프로그래밍 실력이 약해 참조 해볼수 있는 서적이나 인터넷 사이트를 알고 싶습니다.

다른 솔루션으로 대체하고 있는 상황이지만,

db와의 연계를 통한 full text 검색 엔진을 목표로 삼고 있습니다 ^^

짧은글 일수록 신중하게.



박명근TN 2016-03 일단 json을 검색해보시는 것이 좋을 것 같습니다. 일단 json을 검색해보시는 것이 좋을 것 같습니다.



바나나파이K… 2016-03 우선 PDF가 어떻게 형성된것인지에 따라서 많이 다르지 않을까요? PDF가 이미지파일로 만들어진거라면 OCR을 거치지 않으면 안될것이고.... PDF안에 TEXT가 있다면 TEXT를 찾으면 되구요... 피디에프파일이 있는 폴더에서 파일내 텍스트써치를 보통 윈도우나 커맨드 툴로 했을때 된다면 그다지 어렵지않을텐데요... 무슨 스페셜 포멧을 거쳐야 한다면 조금 더 복잡하겠지만 이제 PDF에 관련된 OPEN라이브러리가 존재한다고 믿습니다~ 우선 PDF가 어떻게 형성된것인지에 따라서 많이 다르지 않을까요? PDF가 이미지파일로 만들어진거라면 OCR을 거치지 않으면 안될것이고.... PDF안에 TEXT가 있다면 TEXT를 찾으면 되구요... 피디에프파일이 있는 폴더에서 파일내 텍스트써치를 보통 윈도우나 커맨드 툴로 했을때 된다면 그다지 어렵지않을텐데요... 무슨 스페셜 포멧을 거쳐야 한다면 조금 더 복잡하겠지만 이제 PDF에 관련된 OPEN라이브러리가 존재한다고 믿습니다~



근원e 2016-03 일단 일반적인 PDF(이미지로 이루어지지 않은)은 여러 PDF라이브러리 등으로 텍스트를 추출 할 수 있습니다. 그리고 Elasticsearch 의 경우 텍스트를 색인 후에 사용할 수 있습니다. 한글의 경우 MeCab-ko 를 이용해서 형태소 분석을 이용해 검색과 색인을 할 수 있습니다. 검색어 "Elasticsearch 한글 형태소" 를 검색 해보시면 많은 예제가 나옵니다. 일단 일반적인 PDF(이미지로 이루어지지 않은)은 여러 PDF라이브러리 등으로 텍스트를 추출 할 수 있습니다. 그리고 Elasticsearch 의 경우 텍스트를 색인 후에 사용할 수 있습니다. 한글의 경우 MeCab-ko 를 이용해서 형태소 분석을 이용해 검색과 색인을 할 수 있습니다. 검색어 "Elasticsearch 한글 형태소" 를 검색 해보시면 많은 예제가 나옵니다.



흐르는강물… 2016-03 감사합니다 감사합니다

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

2664/5710

번호	제목Page 2664/5710	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (734)	정은준1	2014-05	5159038	0
[필독] 처음 오시는 분을 위한 안내 (734) 2014-05 5159038 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (234)	백메가	2015-12	1693285	25
(광고) 단통법 시대의 인터넷가입 가이드(… (234) 2015-12 1693285 1 백메가
60930	GTX1070 어떤게 답일까요? (11)	zaro	2017-02	5194	1
GTX1070 어떤게 답일까요? (11) 2017-02 5194 1 zaro
60929	h8dci 포스팅불가... (15)	윤치열	2007-04	5194	2
h8dci 포스팅불가... (15) 2007-04 5194 1 윤치열
60928	우분투 설치 관련 질문좀 드립니다.. (9)	FreeBSD	2012-02	5194	0
우분투 설치 관련 질문좀 드립니다.. (9) 2012-02 5194 1 FreeBSD
60927	리눅스에서 듀얼코어 시피유를 인식못하나요?? (4)	박진수	2006-10	5194	13
리눅스에서 듀얼코어 시피유를 인식못하나… (4) 2006-10 5194 1 박진수
60926	근저당권 말소? (6)	미놀사랑	2014-11	5194	0
근저당권 말소? (6) 2014-11 5194 1 미놀사랑
60925	윈도우2000(W2k) 설치시 Tyan s2880 On board scsi 인식 (3)	김덕기	2006-03	5194	19
윈도우2000(W2k) 설치시 Tyan s2880 On bo… (3) 2006-03 5194 1 김덕기
60924	질문: 사운드카드 잡는법과 메인보드 BIOS 업뎃 방법 (4)	에이씨피유	2016-04	5194	0
질문: 사운드카드 잡는법과 메인보드 BIOS… (4) 2016-04 5194 1 에이씨피유
60923	hp z420 윈7 이미지파일 부탁드립니다. (4)	빨간망또	2016-09	5194	1
hp z420 윈7 이미지파일 부탁드립니다. (4) 2016-09 5194 1 빨간망또
60922	Z620 윈도우 세팅후 HDD 인식을 안하는것은? (9)	SSen	2021-05	5194	0
Z620 윈도우 세팅후 HDD 인식을 안하는것… (9) 2021-05 5194 1 SSen
60921	openGL과 Direct3D의 효율성문제로 인한고민.. (4)	김은섭	2006-09	5194	17
openGL과 Direct3D의 효율성문제로 인한고… (4) 2006-09 5194 1 김은섭
60920	HP 마이크로서버 Gen8 쓸만한가요? (16)	나로와	2022-04	5194	0
HP 마이크로서버 Gen8 쓸만한가요? (16) 2022-04 5194 1 나로와
60919	m72e에 usb3.0 사용방법??? (10)	가을바람	2018-07	5194	0
m72e에 usb3.0 사용방법??? (10) 2018-07 5194 1 가을바람
60918	M2576-ADJ 소자를 구할 곳이 있을까요? (2)	송석후	2016-06	5194	0
M2576-ADJ 소자를 구할 곳이 있을까요? (2) 2016-06 5194 1 송석후
60917	채굴하고싶습니다. (18)	Sakura24	2018-06	5194	0
채굴하고싶습니다. (18) 2018-06 5194 1 Sakura24
60916	집에서 사용할만 UHD TV 가성비 좋은 제품은 어떤게 있을런지요?? (2)	블루영상	2016-07	5195	0
집에서 사용할만 UHD TV 가성비 좋은 제품… (2) 2016-07 5195 1 블루영상
60915	모바일 웍 문의 (7)	song05	2014-12	5195	0
모바일 웍 문의 (7) 2014-12 5195 1 song05
60914	아 LG 노트북... (5)	황진우	2016-03	5195	0
아 LG 노트북... (5) 2016-03 5195 1 황진우
60913	고민입니다. (4)	차평석	2011-11	5195	0
고민입니다. (4) 2011-11 5195 1 차평석
60912	메인공유기에서 서브공유기로 슈퍼dmz 설정하는 방법 좀 알려주세요. (1)	겨울나무	2015-06	5195	0
메인공유기에서 서브공유기로 슈퍼dmz 설… (1) 2015-06 5195 1 겨울나무
60911	HP DL380 Gen7에 Windows 2012 R2 설치시 디스크를 못읽어옵니다. (3)	구십평	2019-12	5195	0
HP DL380 Gen7에 Windows 2012 R2 설치시 … (3) 2019-12 5195 1 구십평