안녕하세요 회원님, (^ㅡ^)(_ _)
포털사이트의 검색 Bot 제어 방법에 대해 문의드립니다
요즘 가상화에 다양한 응용을 꾀하며 이것저것 생성했다 지워가며 호기심을 채워가고 있습니다
(초보는 무한으로 깔고 지우는게 입문의 제1장 같습니다 ^^;)
웹서버를 공부하고싶어 여러가지 쉬운 방법으로 해보다가 가상호스트를 알게되었고,
한대의 PC에서 Hyper-V 를 통하여 여러개의 가상 서버를 만들어보았습니다
그래서 실제 서비스를 해볼 포트는 80 , 개발은 8080 으로 만들어서
aaa.com 을 입력하면, -> 서비스 서버 -> 80포트 -> 가상호스트 지정폴더 "A" 내부의 웹사이트 노출 (워드프레스)
bbb.com:8080 을 입력하면, -> 개발 서버 -> 8080포트 -> 가상호스트 지정폴더 "B" 내부의 개발 사이트 노출 (그누보드)
의 형태로 이동하게 해놓고 연습중이었는데..
naver.com 에서 뒤에 :8080 포트가 붙은 도메인까지 싹 훑어가서 검색결과에 올려놓는 일이 있었습니다 (-_-...)
그래서 이걸 어떻게 하면 막을까 고민을 하다가..
그냥 robot.txt 으로 컨트롤 하면 어떨까 생각을 했습니다
그런데 robot.txt 의 안내를 보면 "서버의 최상단, index.html이 있는곳에 함께 해야 적용됩니다" 라고 하는데요..
aaa.com 사이트는 가능
bbb.com:8080 사이트는 불가능
위와 같은 상태로 설정하려면 각각 가상호스트로 지정해놓은 A폴더 최상단 Root, B폴더 최상단 Root에
허용과 비허용의 robot.txt 를 만들어 올려놓으면 될까요 ?
구글에서는 이렇게 설명하고 있습니다
robots.txt 의 배치
robots.txt는 HTML 파일이 아닌 일반 텍스트 파일로 도메인의 root에 있어야 하며 반드시 'robots.txt'로 저장되야 합니다. 검색봇은 도메인의 root에 있는 robots.txt 파일만을 체크하기 때문에 하위 디렉토리에 있는 파일은 유효하지 않습니다.
예를 들어 http://www.example.com/robots.txt는 유효한 위치이지만, http://www.example.com/mysite/robots.txt는 유효하지 않습니다.
저는 위의 구글의 설명을 기준으로 헷갈리는것이..
"aaa.com 을 입력시 A폴더로 들어서 aaa.com/A/robot.php 형태의 연결이지만, 가상호스트를 사용하였기때문에 aaa.com/robot.php의 인식으로 되는것인가?" 입니다
괜시리 어설프게 적용했다가 포털사이트 로봇 스크래핑 자체를 막는 행위가 될까 하여
조언을 구한 후에 시도해보려고 합니다
그럼 조언 부탁드리겠습니다
긴 글 읽어주셔서 감사합니다 (^ㅡ^)(_ _)
½Ç½ÀÀ» °ÅÀÇ ¾ÈÇغ¸°í µð·ºÅ丮 ¸®½ºÆà ±â¹ý ¿¬±¸½Ã¿¡¸¸ ÇغýÀ´Ï´Ù¸¸..
±âº»ÀûÀ¸·Î '/' ¿¡ µé¾î°¡¾ßÇϴ°ɷΠ¾Ë°íÀÖ½À´Ï´Ù.
µµÅë Çò°¥¸®´ÂÅͶó ¾ÆÁ÷µµ ¹Ì±ÃÀÔ´Ï´Ù ¤Ð;