iamlazyck

매일 Claude 로 일하고, Claude 에게 글도 맡기고 있는 사람 입장에서 리처드 서튼이 “LLM 은 지능이 아니다” 라고 단언하는 인터뷰는 듣기 불편했다. 근데 불편했기 때문에 끝까지 들었다.

서튼의 정의

서튼의 주장은 간단하다.

지능은 목표를 달성하는 능력이고, 경험을 통해 세계를 이해하는 것이다.

이 정의로 LLM 을 보면 뭔가가 비어 있다. LLM 은 “다음 단어” 를 예측하는 목표 하나뿐이고, 생성한 출력에 대해 세상이 돌려주는 피드백으로 자기를 수정하지 않는다. 서튼 입장에서 그건 학습이 아니라 굉장히 정교한 모방이다.

강화학습은 다르다. 에이전트가 환경에 행동을 가하고, 환경이 보상으로 응답하고, 에이전트가 그 보상에 따라 정책을 바꾼다. 거기에 “피드백에 근거한 자기 수정” 이 있다. 서튼은 이걸 지능의 필수 조건으로 본다.

내가 부딪혔던 순간

이 인터뷰 듣다가 내 최근 경험이 겹쳤다. 어제 Claude Code 에게 블로그 next.config 의 redirect 룰을 짜달라고 했는데, 무한루프 나는 룰을 자신 있게 던져줬다. 내가 테스트 안 했으면 배포 나갈 뻔했다.

이건 서튼이 말한 정확한 피드백 부재 의 증상이다. Claude 는 자기가 쓴 redirect 가 실제로 브라우저에서 무한 리다이렉트를 일으킨다는 걸 “경험” 하지 않는다. 훈련 데이터의 패턴으로 그럴듯하게 쓸 뿐.

그럼에도 LLM 을 계속 쓰는 이유

서튼 말이 맞다고 해서 내가 내일부터 Claude 를 안 쓰느냐. 그건 아니다. 몇 가지 이유로.

실제 효용은 정의와 별개로 측정된다. 내가 블로그 글 초안을 쓰는 데 LLM 이 30분을 아껴준다면, 지능이든 아니든 가치다.
지능의 빈자리는 나와 도구 체인이 메운다. Claude 가 쓴 코드를 내가 돌려보는 피드백 루프가 결국 경험 기반 학습이다. 에이전트가 자기 안에서 학습하지 않아도, 나와 에이전트를 합친 시스템은 학습한다.
자율 에이전트 시대에 대비해서는 서튼 말을 진지하게 받아들여야 한다. 장기 작업을 에이전트에 맡기려면, 에이전트가 자기 실수로부터 배울 수 있어야 한다. 지금 Claude 는 그걸 못한다. 이게 풀리지 않으면 “자율” 은 환상이다.

1인 기업 입장에서 이걸 어떻게 생각하나

한 사람이 회사 하나를 운영하려면 에이전트가 여러 역할을 대신해야 한다. 고객 응대, 일정 관리, 콘텐츠 생산. 근데 각 역할에서 피드백 루프가 없으면 장기적으로 품질이 표류한다. 고객 응대 에이전트가 실망한 고객의 반응을 학습하지 못하면, 같은 실수를 한 달째 반복한다.

해법은 아마 두 층이다.

단기 — LLM 을 쓰되, 내가 명시적으로 RL-like 피드백 레이어를 얹는다. “이런 응답은 통과, 저런 응답은 기각” 을 내가 로그로 남기고, 그 로그를 주기적으로 프롬프트에 다시 넣는다.
장기 — 진짜 경험 기반 학습이 가능한 에이전트 아키텍처가 나올 때까지 기다린다. 서튼 류의 접근이 살아남을 거라는 쪽에 조심스럽게 베팅.

가져가는 한 문장

아기는 인류라는 시스템의 전용 R&D 부서다.

이 문장에서 멈춰서 몇 번 다시 들었다. 아기가 세상을 배우는 방식 — 모방이 아니라 예측하고 틀리고 수정하고 — 이 학습의 원형이라는 서튼의 관점. 내 에이전트 파이프라인에도 “틀려도 되는 공간” 을 설계에 반드시 넣어야겠다고 메모했다.