본문 바로가기
개발

00님, 저희 페이지 검색해도 안 나오는데요?[3] (robots.txt 작성하는 법)

by BellRiver_Lee 2024. 10. 4.
반응형

방가링!

다들 바쁘니까 바로 드갑시다.


robots.txt 작성법

#은 주석입니다.
User-agent: *
Allow: /blog/
# /blog/ 경로 아래의 모든 페이지 크롤링 허용
Disallow: /admin*
# /admin으로 시작하는 모든 페이지 크롤링 금지
Disallow: /login*
# /login으로 시작하는 모든 페이지 크롤링 금지
Sitemap: https://bellriver.co.kr/sitemap.xml

#     Published by 
#     ██████╗ ███████╗██╗     ██╗     ██████╗ ██╗██╗   ██╗███████╗██████╗ 
#     ██╔══██╗██╔════╝██║     ██║     ██╔══██╗██║██║   ██║██╔════╝██╔══██╗
#     ██████╔╝█████╗  ██║     ██║     ██████╔╝██║██║   ██║█████╗  ██████╔╝
#     ██╔══██╗██╔══╝  ██║     ██║     ██╔══██╗██║╚██╗ ██╔╝██╔══╝  ██╔══██╗
#     ██████╔╝███████╗███████╗███████╗██║  ██║██║ ╚████╔╝ ███████╗██║  ██║
#     ╚═════╝ ╚══════╝╚══════╝╚══════╝╚═╝  ╚═╝╚═╝  ╚═══╝  ╚══════╝╚═╝  ╚═╝

robots.txt는 위처럼 작성해 주시면 됩니다.
(곁들어 있는 텍스트 아트는 겉멋입니다.)

기본 구조:

 

  • User-agent: 어떤 검색 엔진에 대한 지시인지 지정.
    " * "은 모든 검색 엔진 크롤러에게 동일한 지시를 내린다는 의미입니다.(네이버, 구글 모두 다 같이 처리)
  • Disallow: 크롤링을 금지할 페이지를 지정.
  • Allow: 크롤링을 허용할 페이지를 지정.
  • Sitemap: 사이트맵의 위치를 검색 엔진 로봇들에게 알림.

 

위에 있는 코드를 참고하셔서 로봇들이 수집해야 하는 페이지들은 Allow, 로봇들에게 공개하고 싶지 않은 페이지들은 Disallow 처리하시면 됩니다.

또한, 여기에 sitemap.xml 위치를 명시해야 sitemap을 인식하고 가져갈 수 있다는 점 꼭 확인하셔야 합니다.


robots.txt 역할

 

  • 검색 엔진 크롤링 제한: 웹사이트의 특정 부분을 검색 엔진에 노출하고 싶지 않을 때 사용합니다.
    관리자 페이지나 개인 정보가 담긴 페이지를 크롤링에서 제외할 수 있습니다.
  • 서버 부하 관리: 대형 웹사이트에서는 너무 많은 페이지를 한꺼번에 크롤링하면 서버에 부하가 발생할 수 있습니다.
    robots.txt를 이용해 크롤러가 동시에 크롤링할 수 있는 페이지 수를 제한하거나 특정 시간 동안만 크롤링하게 할 수 있습니다.
  • 사이트맵 안내: robots.txt 파일 안에 사이트맵 파일의 위치를 명시할 수 있습니다.
    이를 통해 검색 엔진은 더 쉽게 웹사이트의 구조를 파악하고 크롤링할 수 있습니다.

 

robots.txt 주의 사항

  • robots.txt 파일은 사이트가 검색 엔진에 표시되는 것을 완전히 방지하기 위한 파일이 아닙니다.
    이 파일은 크롤러가 특정 페이지를 크롤링하지 않도록 지시하는 역할을 하지만, 검색 엔진이 해당 페이지를 색인에서 제외하는 것과는 다릅니다.
    robots.txt를 무시하거나 외부 링크로 인해 페이지가 여전히 검색엔진에 의해 검색될 수 있습니다.
  • 웹페이지가 Google과 같은 검색 엔진에 표시되지 않도록 하려면, 페이지 내에서 noindex 메타 태그를 사용하거나, 페이지에 비밀번호 보호와 같은 보안 설정을 적용해 페이지 크롤링 자체를 차단해야 합니다.
    아래 코드를 <head></head> 안에 넣어 특정 페이지를 크롤링에서 제외할 수 있습니다.
<meta name="robots" content="noindex">

텍스트 아트

쓰잘 때기 없지만 귀엽고 이쁜 거 좋아하시면 아래 링크에서 텍스트 아트를 만드실 수 있습니다.

 

Text to ASCII Art Generator (TAAG)

 

patorjk.com


참고 문헌:

 

robots.txt 소개 및 가이드 | Google 검색 센터  |  문서  |  Google for Developers

robots.txt는 크롤러 트래픽을 관리하는 데 사용됩니다. robots.txt 소개 가이드에서 robots.txt 파일의 정의와 사용 방법을 알아보세요.

developers.google.com

반응형