AI 크롤러는 사람과 다르게 웹사이트를 읽는다
AI 크롤러(GPTBot, ClaudeBot, Google-Extended, PerplexityBot)가 웹사이트를 읽는 방식은 구글 검색 크롤러나 사람과 근본적으로 다릅니다. AI 크롤러가 잘 읽는 웹사이트 구조를 설계한다는 것은 시맨틱 HTML 계층, Schema.org 구조화 데이터, robots.txt 접근 제어, 콘텐츠 파싱 가능성을 모두 고려해 AI가 페이지의 의미를 정확히 이해하도록 설계하는 것입니다.
2026년 현재 ChatGPT·클로드·Perplexity·구글 AI Overview에 콘텐츠가 인용되려면 구글 크롤러 최적화(SEO)와 별개로 AI 크롤러 친화적 설계가 추가로 필요합니다. 특히 ChatGPT는 구글 21위 이하 페이지를 90% 비율로 인용하므로, 구글 상위 노출과 AI 인용은 서로 다른 최적화 전략입니다.
① JavaScript로만 렌더링되는 콘텐츠 (CSR 단독) — AI 크롤러 대부분이 JS 미실행
② 이미지 안에 들어간 텍스트 — OCR 없이는 파싱 불가
③ robots.txt에서 GPTBot·ClaudeBot 차단 — 가장 흔한 실수
④ 의미 없는 div 중첩 구조 — AI가 콘텐츠 계층 파악 불가
AI 크롤러는 어떻게 웹사이트를 파싱하는가
AI 크롤러가 페이지를 처리하는 과정은 크게 5단계입니다.
[ 그림 1 ] AI 크롤러 웹페이지 파싱 파이프라인
핵심은 ③ 텍스트 추출 단계입니다. AI 크롤러 대부분은 JavaScript를 실행하지 않고 순수 HTML만 파싱합니다. CSR(Client-Side Rendering) 방식으로만 콘텐츠를 렌더링하면 AI 크롤러가 빈 페이지를 읽는 것과 같습니다. 서버에서 완성된 HTML을 응답하는 SSR(Server-Side Rendering) 또는 정적 사이트 생성(SSG)이 필수인 이유입니다.
시맨틱 HTML — AI가 콘텐츠 의미를 파악하는 방법
시맨틱 HTML은 태그 자체가 콘텐츠의 의미를 담는 구조입니다. AI 크롤러는 시맨틱 태그를 통해 페이지의 정보 계층을 파악하고 각 섹션의 중요도를 판단합니다.
[ 그림 2 ] 시맨틱 HTML vs div 중첩 구조 — AI 인식 차이
AI 크롤러가 중요하게 처리하는 시맨틱 태그는 다음과 같습니다.
| 태그 | AI에게 전달하는 의미 | 최적화 포인트 |
|---|---|---|
<main> | 페이지 핵심 콘텐츠 영역 | 페이지당 1개만 사용, 핵심 본문만 포함 |
<article> | 독립적으로 배포 가능한 콘텐츠 단위 | 블로그 포스트·뉴스 기사에 반드시 적용 |
<section> | 주제별 섹션 구분 | 각 섹션에 h2·h3 제목 포함 필수 |
<h1>~<h6> | 콘텐츠 계층 구조 | h1은 페이지당 1개, 건너뜀 없이 순차 사용 |
<nav> | 내비게이션 링크 묶음 | AI가 사이트 구조 파악에 활용 |
<aside> | 본문과 관련 있지만 독립된 보조 콘텐츠 | 사이드바·관련 링크에 사용 |
<footer> | 문서 하단 메타 정보 | 회사 정보·연락처·저작권 포함 |
<time datetime=""> | 기계가 읽을 수 있는 날짜·시간 | 발행일·수정일에 ISO 8601 형식 적용 |
Schema.org JSON-LD — AI가 콘텐츠를 구조화된 지식으로 학습하는 방법
시맨틱 HTML이 콘텐츠의 시각적 구조를 알려준다면, Schema.org JSON-LD는 콘텐츠의 의미적 맥락을 알려줍니다. "이 페이지는 병원 홈페이지다", "이 글의 작성자는 누구다", "이 제품의 가격은 얼마다"처럼 AI가 콘텐츠를 정확한 지식으로 처리하도록 돕습니다.
JSON-LD는 <head> 또는 <body> 어디에나 삽입 가능하며, HTML 구조와 분리되어 유지보수가 용이합니다.
기본 Article Schema 적용 예시
블로그 포스트나 뉴스 기사 페이지에는 Article 또는 BlogPosting 스키마를 적용합니다. 제목(headline), 작성자(author), 발행일(datePublished), 수정일(dateModified), 이미지(image)가 핵심 필드입니다. 작성자 정보에 Person 스키마를 중첩하면 E-E-A-T 신호가 강화됩니다.
FAQPage Schema — AI 인용 가능성을 가장 빠르게 높이는 방법
FAQPage 스키마는 구글 AI Overview와 ChatGPT 모두에서 인용 가능성을 높이는 가장 효과적인 구조화 데이터입니다. 질문(Question)과 답변(Answer) 쌍을 명확히 마크업하면 AI가 해당 Q&A를 직접 인용하는 구조로 처리합니다. acceptedAnswer의 text 필드에 2~3문장의 명확한 답변을 작성하세요.
LocalBusiness Schema — 지역 기반 AI 검색에서 필수
오프라인 매장이나 서비스 지역이 있는 비즈니스는 LocalBusiness 스키마가 필수입니다. name, address, telephone, openingHours, geo(위도·경도)를 포함하면 "근처 ○○ 추천해줘" 유형의 AI 검색에서 인용됩니다.
robots.txt — AI 크롤러를 허용하는 올바른 설정
2026년 현재 주요 AI 크롤러의 User-agent 문자열은 다음과 같습니다. 많은 사이트가 Disallow: / 설정으로 모든 크롤러를 차단하거나, 레거시 설정에서 AI 크롤러를 의도치 않게 막고 있습니다.
| AI 플랫폼 | User-agent | 용도 |
|---|---|---|
| ChatGPT | GPTBot | 실시간 웹 검색·답변 생성 |
| Claude | ClaudeBot | Anthropic AI 학습·검색 |
| Google AI | Google-Extended | Gemini·AI Overview 학습 |
| Perplexity | PerplexityBot | 실시간 인용 검색 |
| Meta AI | FacebookBot | Meta AI 답변 생성 |
AI 크롤러를 허용하는 robots.txt 기본 설정은 다음과 같습니다. 모든 봇을 허용하고 민감한 경로만 선택적으로 차단하는 방식이 AI 검색 최적화 관점에서 유리합니다.
# 모든 크롤러 기본 허용
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /api/
# AI 크롤러 명시적 허용 (선택사항 — 기본 Allow 확인 목적)
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
AI 크롤러 친화적 웹사이트 설계 체크리스트
[ 그림 3 ] AI 크롤러 친화적 웹사이트 — 4개 레이어 설계 원칙
레이어 1 체크 — 서버사이드 렌더링
모든 핵심 콘텐츠가 JavaScript 실행 없이 초기 HTML 응답에 포함되는지 확인합니다. 브라우저 개발자 도구에서 JavaScript를 비활성화하고 페이지를 로드했을 때 콘텐츠가 보이면 AI 크롤러도 읽을 수 있습니다. Next.js의 getServerSideProps·getStaticProps, Nuxt의 SSR 모드가 대표적인 구현 방법입니다.
레이어 2 체크 — 시맨틱 HTML
페이지에 h1이 정확히 1개 있는지, h1 → h2 → h3 계층이 건너뜀 없이 구성됐는지, main 태그 안에 핵심 콘텐츠가 있는지, article 태그가 독립적인 콘텐츠 단위에 사용됐는지 확인합니다. 크롬 개발자 도구의 Accessibility 탭에서 페이지 아웃라인을 시각적으로 확인할 수 있습니다.
레이어 3 체크 — 구조화 데이터
구글 Rich Results Test(search.google.com/test/rich-results)에서 Schema.org JSON-LD가 올바르게 파싱되는지 검증합니다. Article, FAQPage, LocalBusiness 중 해당 페이지 유형에 맞는 스키마가 오류 없이 적용됐는지 확인합니다.
레이어 4 체크 — 크롤링 허용
yoursite.com/robots.txt에 GPTBot, ClaudeBot, Google-Extended가 차단되지 않는지 확인합니다. yoursite.com/llms.txt 파일이 존재하고 사이트 핵심 정보가 정확히 기술됐는지 확인합니다. 서버 응답 시간(TTFB)이 800ms 이하인지 측정합니다.
자주 발생하는 AI 크롤러 차단 실수와 해결 방법
| 문제 | 원인 | 해결 방법 |
|---|---|---|
| AI가 페이지 내용을 모름 | CSR 단독 렌더링 (React/Vue SPA) | SSR 또는 prerender 도입 |
| 중요 정보가 인용되지 않음 | 이미지 안에 텍스트 삽입 | 실제 HTML 텍스트로 교체 |
| GPTBot이 사이트를 못 읽음 | robots.txt Disallow: / | AI 크롤러 User-agent 명시 허용 |
| FAQ가 AI Overview에 안 나옴 | FAQPage Schema 미적용 | JSON-LD FAQPage 스키마 추가 |
| 브랜드 정보가 틀리게 인용됨 | llms.txt 부재 | /llms.txt 파일 생성·배포 |
| AI가 페이지 타입을 모름 | Article·LocalBusiness Schema 없음 | 페이지 유형별 Schema 적용 |
옵티플로우의 자체 개발 CMS는 블로그 글을 발행할 때마다 Article·FAQPage·HowTo Schema.org를 자동으로 생성·삽입합니다. 개발자가 별도로 JSON-LD를 작성할 필요 없이, 콘텐츠 작성에만 집중하면 AI 크롤러 친화적 구조화 데이터가 자동 적용됩니다. 옵티플로우 블로그 CMS 자동화 가이드에서 상세 내용을 확인하세요.
"AI 크롤러 친화적 웹사이트 설계는 새로운 기술이 아닙니다. 웹 표준을 올바르게 지키면 — 시맨틱 HTML, 서버사이드 렌더링, 구조화 데이터, 접근성 — AI도 사람도 모두 잘 읽는 사이트가 됩니다. 웹 표준이 곧 AI 최적화입니다." — 옵티플로우 대표 이영준
현재 운영 중인 웹사이트가 GPTBot·ClaudeBot에게 제대로 읽히고 있는지 무료로 확인해 드립니다. robots.txt 설정, 시맨틱 HTML 구조, Schema.org 적용 여부를 점검하고 개선 방향을 안내합니다.
📞 031-903-3689 | ✉️ info@optiflow.kr | 🌐 optiflow.kr