GEO 전략

GPT가 내 콘텐츠를 크롤링했다 — 실시간 GEO 최적화로 AI 인용을 만드는 과정 (실전 케이스 스터디)

GPTBot이 우리 사이트를 크롤링했다 — 그래서 인용도 될까?

2026년 3월 23일, 우리는 흥미로운 데이터를 발견했습니다. ChatGPT의 크롤러(GPTBot)가 두 개의 GEO 블로그 사이트를 집중적으로 크롤링한 것입니다.

  • 온케어 GEO 블로그: 오전 6:54~7:23, 6개 블로그 포스트 + 홈페이지 크롤링 (IP: 74.7.227.157)
  • 루미브리즈 GEO 블로그: 오전 8:26~8:29, 20개 이상 페이지를 2분 만에 집중 크롤링 (IP: 74.7.227.36)

크롤링은 긍정적 신호입니다. 하지만 핵심 질문은 이것입니다: "크롤링했으니 GPT가 우리를 인용할까?"

우리는 이 질문에 감이 아닌 데이터로 답하기로 했습니다. 실시간 추적 → 브라우저 자동화 테스트 → 콘텐츠 보강 → 재배포까지, GEO 최적화의 전체 루프를 실행하고 그 과정을 기록합니다.

1단계: AI 크롤러 실시간 모니터링

GEO의 첫 번째 단계는 "AI 크롤러가 언제, 어떤 페이지를 가져갔는지" 실시간으로 파악하는 것입니다.

크롤러 감지 시스템 구조

우리는 Next.js 미들웨어에서 User-Agent를 분석하여 AI 크롤러를 실시간 감지합니다.

  • 감지 대상: GPTBot, ChatGPT-User, PerplexityBot, Google-Extended, ClaudeBot, Bingbot 등 10종
  • 저장 방식: Supabase DB의 crawler_visits 테이블에 크롤러명, 방문 경로, 시간, IP 즉시 기록
  • 대시보드: 관리자 화면에서 크롤러별 방문 추이를 실시간 확인

2026년 3월 23일 크롤링 데이터 (실제 기록)

크롤러사이트크롤링 페이지 수시간대특징
ChatGPT (GPTBot)온케어 블로그6개 포스트 + 홈06:54~07:23의료 콘텐츠 집중
ChatGPT (GPTBot)루미브리즈 블로그20+ 페이지08:26~08:29전체 사이트 스캔 (2분)
Perplexity온케어 블로그robots.txt02:05사이트 접근 확인
Bing온케어 블로그robots.txt + 홈01:40정기 크롤링

핵심 인사이트: GPTBot이 루미브리즈 전체 사이트를 2분 만에 스캔한 것은, 이 사이트를 "유의미한 정보 소스"로 판단했다는 시그널입니다. 하지만 크롤링과 인용은 별개 단계입니다.

2단계: 브라우저 자동화로 GPT 인용 여부 실증 테스트

"크롤링했으니 인용할 것이다"는 가정일 뿐입니다. 우리는 Playwright 기반 브라우저 자동화로 ChatGPT에 실제 질문을 보내고, 응답에서 우리 사이트가 인용되는지 테스트했습니다.

테스트 방법론

  1. ChatGPT 웹에 접속 (Playwright 자동화)
  2. 크롤링된 콘텐츠 주제와 관련된 자연어 질문 입력
  3. 응답 대기 후 전체 페이지 텍스트/HTML 분석
  4. 도메인명(lumiaeo.com), 브랜드명, URL 경로, 하이퍼링크 존재 여부 확인
  5. 응답 스크린샷 자동 저장

온케어 블로그 테스트 결과 (6개 주제)

테스트 쿼리GPT 응답 특징인용 여부
항암치료 중 영양관리 식단 가이드일반 영양 지식으로 답변미인용
남양주 고압산소치료 병원 추천지도 + 다른 병원 추천미인용
암 조기발견 종양표지자 검사일반 의학 정보미인용
재생의학 면역대사 치료최신 트렌드 정보미인용
자율신경실조증 치료 비교신경과/통합의학 비교미인용
면역세포치료 암 치료 효과CAR-T 중심 설명미인용

루미브리즈 블로그 테스트 결과 (6개 주제)

테스트 쿼리GPT 응답 특징인용 여부
SEO와 GEO의 차이점비교 테이블 제공, 일반 지식미인용
AI 마케팅 회사 추천 GEO AEO체인시프트, 넥스트티 등 타사 추천미인용
llms.txt 파일 가이드문법/작성법 설명미인용
JSON-LD 구조화 데이터 SEO개념 + 코드 예시미인용
IndexNow API 빠른 색인API 사용법 설명미인용
병원 AI 마케팅 의료법의료법 규정 상세 설명미인용

결과: 12개 테스트 전체에서 인용 0건. 크롤링과 인용 사이에는 명확한 갭이 존재합니다.

3단계: 왜 크롤링했는데 인용이 안 되는가? — 원인 분석

테스트 데이터를 기반으로 원인을 분석했습니다.

크롤링에서 인용까지의 파이프라인

단계설명현재 상태
1. 크롤링GPTBot이 페이지 HTML 수집완료
2. 인덱싱수집된 콘텐츠를 검색 가능한 형태로 처리진행 중 (추정)
3. 랭킹질문 관련 소스 중 신뢰도/적합도 순위 결정미도달
4. 인용AI 답변에서 출처로 선택미도달

인용되지 않는 4가지 주요 원인

원인 1: 크롤링-인덱싱 시간차

크롤링 후 불과 수 시간 만에 테스트했습니다. GPT의 웹 검색 인덱스(Bing 기반)에 반영되려면 최소 수일~수주가 필요합니다.

원인 2: 도메인 권위도(Domain Authority) 부족

신규 사이트는 기존 권위 있는 소스(병원 공식사이트, 의료 포털, 학술 데이터베이스) 대비 신뢰도 점수가 낮습니다. GPT는 동일 주제에 대해 더 신뢰할 수 있는 소스를 우선 인용합니다.

원인 3: 콘텐츠 차별화 부족

테스트 시점의 콘텐츠는 일반적인 정보성 글이었습니다. GPT가 "이 소스에서만 얻을 수 있는 정보"가 부족하면, 기존에 학습된 일반 지식으로 답변합니다.

원인 4: 인용 적합성(Citation Fitness)

AI가 답변에 인용하려면, 콘텐츠가 구체적 수치, 비교 데이터, 검증 가능한 출처를 포함해야 합니다. "효과적입니다"보다 "치유율 52% vs 29% (Sharma et al., Scientific Reports, 2021)"가 인용 확률이 높습니다.

4단계: PubMed 논문 인용으로 콘텐츠 품질 강화

원인 분석을 바탕으로, 크롤링된 6개 포스트에 PubMed(미국 국립의학도서관) 등재 논문 22편의 학술 근거를 추가했습니다.

작업 프로세스

  1. PubMed E-utilities API로 각 주제별 관련 논문 검색 (API 키 불필요, 무료)
  2. 논문 메타데이터 수집: 제목, 저자, 저널, DOI, PMID
  3. 각 논문의 핵심 수치/결과를 한국어로 정리
  4. 블로그 body_html에 학술 근거 섹션 삽입
  5. JSON-LD에 ScholarlyArticle citation 구조화 데이터 추가
  6. Supabase DB 일괄 업데이트

추가된 논문 현황

블로그 주제추가 논문 수주요 저널
항암 중 영양관리3편American Journal of Clinical Nutrition, Nutrients
고압산소치료(HBOT)4편Asian J Surgery, Scientific Reports (Nature)
암 조기발견 종양표지자4편JAMA, The Lancet, Journal of Urology (AUA 가이드라인)
면역대사 재생의학4편Cell, Nature, Nature Reviews Drug Discovery
자율신경실조증 치료3편Nature (2025), eLife
면역세포치료4편The Lancet (2025), Cancer Cell, Frontiers in Immunology

콘텐츠 변화 예시

보강 전:

"고압산소치료는 다양한 질환에 효과적입니다."

보강 후:

"2022년 Asian Journal of Surgery 메타분석(Zhang Z et al.)에 따르면, 당뇨성 족부궤양 환자에서 고압산소치료군의 완전 치유율이 대조군 대비 유의미하게 높았습니다(RR=2.35, 95% CI: 1.19-4.62). 또한 Scientific Reports(Sharma R et al., 2021) 연구에서는 HBOT 치료군의 상처 치유율이 52% vs 대조군 29%로 나타났습니다."

이 차이가 AI 인용 확률을 결정합니다. 구체적 수치 + 검증 가능한 출처 = AI가 인용할 동기입니다.

5단계: IndexNow 즉시 제출 — 검색엔진에 업데이트 알림

콘텐츠 업데이트 후, IndexNow API를 통해 Bing과 연동 검색엔진에 즉시 알렸습니다.

  • 제출 결과: HTTP 200 OK (6개 URL 전체 수락)
  • 의미: Bing이 "이 페이지가 변경되었으니 다시 크롤링하라"는 신호를 받음
  • GPT 연결: ChatGPT의 웹 검색은 Bing 인덱스를 사용하므로, Bing 반영 → GPT 검색 결과에도 반영

GEO 실시간 최적화 프레임워크

이 케이스 스터디에서 도출한 GEO 실시간 최적화 루프는 다음과 같습니다.

5단계 GEO 최적화 루프

  1. Monitor(모니터링): AI 크롤러 방문을 실시간 감지하고, 어떤 페이지에 관심을 보이는지 파악
  2. Test(테스트): 브라우저 자동화로 AI에게 실제 질문을 보내 인용 여부를 실증 확인
  3. Analyze(분석): 인용되지 않는 원인을 데이터 기반으로 진단 (도메인 권위, 콘텐츠 차별성, 인용 적합성)
  4. Enhance(강화): 학술 논문, 독자 데이터, 구체적 수치로 콘텐츠 품질 강화
  5. Deploy(배포): IndexNow로 즉시 제출, 빠른 재인덱싱 유도

이 루프를 반복하면서, AI 크롤러의 재방문 주기와 인용 시작 시점을 추적합니다.

백링크는 GEO에도 영향을 미치는가?

전통적으로 백링크는 SEO의 핵심 랭킹 요소입니다. GEO에서의 역할은 다릅니다.

요소SEO에서의 역할GEO에서의 역할
백링크검색 순위 직접 영향간접 영향 (Bing 랭킹 → GPT 검색 결과)
브랜드 멘션간접 영향직접 영향 (Entity 인식 강화)
구조화 데이터리치 스니펫기계 파싱 용이성 → 인용 확률 증가
학술 인용E-A-T 시그널핵심 요소 — AI가 신뢰 소스로 선택하는 결정적 요인
독자 데이터차별화 요소핵심 요소 — 다른 곳에 없는 정보 = 유일한 인용 소스

핵심 발견: GEO에서는 백링크보다 "이 사이트에서만 얻을 수 있는 구체적 데이터"가 더 직접적인 인용 트리거입니다. 학술 논문 인용, 독자 실험 데이터, 비교 통계가 그 예입니다.

예상 타임라인과 다음 단계

단계현재 상태예상 소요
GPTBot 크롤링완료 (2026-03-23)
PubMed 논문 보강완료 (22편)
IndexNow 제출완료 (200 OK)
Bing 인덱싱 반영대기 중1~2주
GPT 검색 DB 반영대기 중2~4주
GPT 인용 시작대기 중4~8주 (DA 축적 필요)

이 문서는 인용이 확인되는 시점에 업데이트될 예정입니다. 실시간 GEO 최적화는 일회성 작업이 아니라 지속적인 모니터링-테스트-강화 루프입니다.

결론: GEO는 "감"이 아니라 "데이터"로 한다

이 케이스 스터디의 핵심 교훈은 세 가지입니다.

  1. 크롤링 ≠ 인용: AI가 콘텐츠를 수집한 것과 답변에 인용하는 것은 완전히 다른 단계입니다. 크롤링은 필요 조건이지 충분 조건이 아닙니다.
  2. 측정 없이 최적화 없다: 브라우저 자동화로 실제 인용 여부를 테스트하지 않으면, GEO는 "잘 됐을 거예요" 수준에 머뭅니다.
  3. 학술 근거가 인용을 만든다: PubMed 논문의 구체적 수치와 DOI/PMID 링크는 AI가 "이 소스는 신뢰할 수 있다"고 판단하는 결정적 시그널입니다.

GEO/AEO는 아직 초기 시장입니다. 하지만 "실제 데이터로 측정하고, 학술 근거로 강화하고, 실시간으로 대응하는" 프레임워크를 가진 팀이 결국 AI 검색 시대의 가시성을 확보할 것입니다.

루미브리즈는 AI 검색 가시성 최적화(GEO/AEO) 전문 솔루션을 제공합니다. 크롤러 실시간 모니터링, AI 인용 테스트, 콘텐츠 품질 강화, IndexNow 자동 제출까지 — GEO의 전체 루프를 자동화합니다.

AI 솔루션이 필요하신가요?

무료 상담 신청arrow_forward

자주 묻는 질문

GPTBot이 내 사이트를 크롤링하면 ChatGPT가 인용하나요?expand_more
크롤링은 인용의 필요 조건이지 충분 조건이 아닙니다. 크롤링 후 인덱싱(수일~수주), 랭킹 평가를 거쳐야 하며, 도메인 권위도와 콘텐츠 차별성이 충분해야 인용됩니다. 실제 테스트 결과, 크롤링 당일에는 12개 쿼리 중 인용 0건이었습니다.
GEO에서 학술 논문 인용이 왜 중요한가요?expand_more
AI는 답변 생성 시 신뢰할 수 있는 소스를 우선 선택합니다. PubMed 등재 논문의 구체적 수치(예: 치유율 52% vs 29%)와 DOI 링크는 '이 콘텐츠는 검증된 정보'라는 강력한 시그널을 AI에게 제공합니다.
GEO 최적화의 효과를 어떻게 측정하나요?expand_more
브라우저 자동화(Playwright)로 ChatGPT에 실제 질문을 보내고, 응답에서 도메인명/브랜드명/URL이 인용되는지 확인합니다. 크롤러 방문 빈도, 인덱싱 상태, 인용 전후 비교를 데이터로 추적합니다.
크롤링에서 실제 인용까지 얼마나 걸리나요?expand_more
사이트 권위도에 따라 다르지만, IndexNow 제출 기준 Bing 인덱싱 1~2주, GPT 검색 DB 반영 2~4주, 실제 인용 시작까지 4~8주가 예상됩니다. 도메인 권위도가 높을수록 빠릅니다.
백링크가 GEO에도 영향을 미치나요?expand_more
직접적으로 카운트되지는 않지만 간접 영향이 큽니다. ChatGPT 웹 검색은 Bing 인덱스를 사용하고, Bing도 백링크를 랭킹 요소로 사용합니다. 다만 GEO에서는 백링크보다 '독자 데이터'와 '학술 근거'가 더 직접적인 인용 트리거입니다.

관련 글