매일 Claude 로 일하고, Claude 에게 글도 맡기고 있는 사람 입장에서 리처드 서튼이 “LLM 은 지능이 아니다” 라고 단언하는 인터뷰는 듣기 불편했다. 근데 불편했기 때문에 끝까지 들었다.
서튼의 정의
서튼의 주장은 간단하다.
지능은 목표를 달성하는 능력이고, 경험을 통해 세계를 이해하는 것이다.
이 정의로 LLM 을 보면 뭔가가 비어 있다. LLM 은 “다음 단어” 를 예측하는 목표 하나뿐이고, 생성한 출력에 대해 세상이 돌려주는 피드백으로 자기를 수정하지 않는다. 서튼 입장에서 그건 학습이 아니라 굉장히 정교한 모방이다.
강화학습은 다르다. 에이전트가 환경에 행동을 가하고, 환경이 보상으로 응답하고, 에이전트가 그 보상에 따라 정책을 바꾼다. 거기에 “피드백에 근거한 자기 수정” 이 있다. 서튼은 이걸 지능의 필수 조건으로 본다.
내가 부딪혔던 순간
이 인터뷰 듣다가 내 최근 경험이 겹쳤다. 어제 Claude Code 에게 블로그 next.config 의 redirect 룰을 짜달라고 했는데, 무한루프 나는 룰을 자신 있게 던져줬다. 내가 테스트 안 했으면 배포 나갈 뻔했다.
이건 서튼이 말한 정확한 피드백 부재 의 증상이다. Claude 는 자기가 쓴 redirect 가 실제로 브라우저에서 무한 리다이렉트를 일으킨다는 걸 “경험” 하지 않는다. 훈련 데이터의 패턴으로 그럴듯하게 쓸 뿐.
그럼에도 LLM 을 계속 쓰는 이유
서튼 말이 맞다고 해서 내가 내일부터 Claude 를 안 쓰느냐. 그건 아니다. 몇 가지 이유로.
- 실제 효용은 정의와 별개로 측정된다. 내가 블로그 글 초안을 쓰는 데 LLM 이 30분을 아껴준다면, 지능이든 아니든 가치다.
- 지능의 빈자리는 나와 도구 체인이 메운다. Claude 가 쓴 코드를 내가 돌려보는 피드백 루프가 결국 경험 기반 학습이다. 에이전트가 자기 안에서 학습하지 않아도, 나와 에이전트를 합친 시스템은 학습한다.
- 자율 에이전트 시대에 대비해서는 서튼 말을 진지하게 받아들여야 한다. 장기 작업을 에이전트에 맡기려면, 에이전트가 자기 실수로부터 배울 수 있어야 한다. 지금 Claude 는 그걸 못한다. 이게 풀리지 않으면 “자율” 은 환상이다.
1인 기업 입장에서 이걸 어떻게 생각하나
한 사람이 회사 하나를 운영하려면 에이전트가 여러 역할을 대신해야 한다. 고객 응대, 일정 관리, 콘텐츠 생산. 근데 각 역할에서 피드백 루프가 없으면 장기적으로 품질이 표류한다. 고객 응대 에이전트가 실망한 고객의 반응을 학습하지 못하면, 같은 실수를 한 달째 반복한다.
해법은 아마 두 층이다.
- 단기 — LLM 을 쓰되, 내가 명시적으로 RL-like 피드백 레이어를 얹는다. “이런 응답은 통과, 저런 응답은 기각” 을 내가 로그로 남기고, 그 로그를 주기적으로 프롬프트에 다시 넣는다.
- 장기 — 진짜 경험 기반 학습이 가능한 에이전트 아키텍처가 나올 때까지 기다린다. 서튼 류의 접근이 살아남을 거라는 쪽에 조심스럽게 베팅.
가져가는 한 문장
아기는 인류라는 시스템의 전용 R&D 부서다.
이 문장에서 멈춰서 몇 번 다시 들었다. 아기가 세상을 배우는 방식 — 모방이 아니라 예측하고 틀리고 수정하고 — 이 학습의 원형이라는 서튼의 관점. 내 에이전트 파이프라인에도 “틀려도 되는 공간” 을 설계에 반드시 넣어야겠다고 메모했다.