본문 바로가기

로봇 메타 태그

블로그나 웹페이지를 만들면 각종 검색엔진에서 인덱스를 만들기 위한 로봇이 방문합니다. 원치 않는 경우 이런 접근을 모두 혹은 일부 막을 수 있도록 만들어진 것이 로봇 배제 표준입니다. 정해진 파일(robots.txt)을 만들어두면 로봇이 이 내용을 확인하고, 주어진 권한에 따라 사이트에 접근하거나 돌아갑니다. 강제력이 있는건 아니지만 대부분 검색엔진은 이를 따르고 있습니다.

다만 티스토리는 robots.txt를 직접 수정할 수 없습니다. 관리자 페이지와 검색 페이지 등 접근을 불허하는 부분도 있지만 기본적으로 블로그 내용은 모든 로봇이 접근할 수 있게 되어 있습니다.

이런 열린 접근이 마음에 들지 않는다면 차선책으로 선택할 수 있는 것이 로봇 메타 태그의 추가입니다. 접근 자체를 막는 것은 아니지만, 검색 엔진의 검색 결과에 사이트나 페이지가 표시되지 않도록 하는 등 대안책으로 사용할 수 있습니다.

구글을 중심으로 로봇 메타 태그를 정리해봤습니다.


제가 사용하고 있는 사용하고 있는 로봇 관련 메타 태그는 다음과 같습니다.

<meta name="robots" content="noarchive">

모든 로봇이 모든 컨텐츠에 접근하여 내용을 확인하고 인덱스를 만들 수는 있지만, 아카이브(속칭 박제)는 허용하지 않습니다.


메타태그 전반

메타태그는 HTML의 head 태그 내에 위치합니다. 기본 구문 형태는 <meta name="로봇" content="명령어" /> 입니다.

예를 들면 다음처럼 사용할 수 있겠습니다.

<html>
<head>
<meta name="robots" content="noindex, nofollow" />
</head>

앞의 로봇 부분에는 대상으로 하는 로봇이 들어갑니다. 어떤 로봇에 대한 설정인지 지정하는 것이죠. 위에서처럼 robots라고 넣으면 모든 로봇을 대상으로 하고, googlebot이라고 넣으면 구글 검색엔진의 로봇만 대상으로 합니다.

뒤의 명령어 부분은 권한을 명시하는 부분입니다. 인덱싱을 허용할지 말지, 연결된 링크를 따라갈 수 있는지 없는지, 앞의 예에서 본 아카이빙 허용 여부 등 여러가지 옵션이 있습니다. 다만 로봇마다 지원하는 명령어가 다릅니다. 인덱싱과 링크 팔로잉은 HTML 표준으로 기본적으로 지원된다고 볼 수 있지만, 나머지는 차이가 큰 편입니다.

 

구글에서 지원하는 로봇 메타 태그

초반에 말한 것처럼 로봇 메타 태그는 크롤링 자체를 막진 않습니다. 검색엔진에서 검색 결과물로 내 사이트를 이용할 수 있는 권한을 지정한다는게 더 적합할 것 같네요. 이 점을 염두에 두고 다음 내용을 보면 쉽게 이해가 됩니다.

◻︎ index / noindex : 검색 결과에 페이지를 표시 / 비표시

◻︎ follow / nofollow : 이 페이지의 링크를 따라감 / 따라가지 않음

◻︎ noarchive : 검색 결과에 '저장된 페이지' 비표시

◻︎ nosnippet : 검색 결과의 문서 요약 비표시 (썸네일 이미지를 사용한 경우에는 이 설정과 무관하게 표시)

◻︎ notranslate : 검색 결과에 번역 기능 미제공

◻︎ noimageindex : 이미지 색인 미제공

◻︎ unavailable_after: [RFC 850 date/time] : 지정된 날짜/시간 이후, 검색 결과에 페이지 비표시

구글이 지원하는 메타 태그에 대해 더 자세히 알고 싶다면 관련 문서를 확인해보세요.

 

사용 예제

실제로 사용할 법한 예제를 몇 가지 만들어 봤습니다.

 

모든 로봇에게 모든 권한 허용

<meta name="robots" content="all" />

기본값이 all이라 사실상 아무것도 기재하지 않은 것과 마찬가지입니다.

 

모든 로봇의 모든 권한 불허

<meta name="robots" content="none" />
혹은
<meta name="robots" content="noindex, nofollow" />

둘 다 효과는 같습니다. 인덱싱(=검색 결과로 해당 페이지를 표시) 할 수 없고, 해당 페이지 내에 있는 링크를 따라갈 수도 없습니다.

 

현재 페이지는 인덱싱 불가, 링크 페이지로 가는 것은 허용

<meta name="robots" content="noindex, follow" />

특정 페이지만 제외하고 싶을 때 활용할 수 있습니다. 자동 페이지를 만들어주는 블로그에서는 사용하기 어렵습니다만.

 

구글 검색엔진의 경우, 인덱싱은 가능하지만 아카이빙은 불허하며 링크된 페이지를 따라가는 것도 불허

<meta name="googlebot" content="index, nofollow, noarchive" />

아카이빙은 구글 검색 결과의 '저장된 페이지' 기능이라고 보시면 됩니다.