수학 올림피아드 금메달인데 시계는 못 읽는 AI

리서치 회사에 있으면 벤치마크 숫자에 의심이 몸에 밴다. 내부 파일럿 돌려보면 “이 모델 HumanEval 90% 인데 왜 우리 문서 요약은 이 모양이지” 가 흔하다. 2026 스탠포드 AI Index 2부 영상은 그 의심을 공식 리포트로 확인해주는 느낌이었다.

한 줄 요약

AI 는 수학 올림피아드에서 금메달을 딸 수 있지만, 아날로그 시계를 제대로 못 읽는다.

이 대비가 리포트 전체의 핵심이다. 성능이 분야별로 극단적으로 불균형하고, 기존 벤치마크가 그 불균형을 평균으로 덮어버린다.

리포트가 짚는 세 가지

벤치마크 포화 — 기존 시험들에서 AI 가 인간 전문가를 넘어섰지만, 그게 실제 업무 수행 능력을 보장하지 않는다.
에이전틱 AI 의 간극 — Q&A 는 잘하지만, OS 위에서 장기 작업을 수행하는 능력은 여전히 얇다. 자율주행도 특정 도시·특정 조건에서만 돌아간다.
평가 기준 재설계 필요 — 점수가 아니라 “실제 사용 시 유용성” 을 재는 기준이 없으면 의사결정이 왜곡된다.

업무에서 이걸 어떻게 소화하는가

내가 리서치 회사에서 모델 고를 때 쓰는 대략적 규칙은 이렇다.

벤치마크 점수는 후보군 좁히는 용도로만 쓴다. 상위 3~5개 모델을 골라내는 수준. 그 안에서 순위는 믿지 않는다.
우리 과제 샘플 20개로 직접 A/B — 수치가 아닌 내가 읽고 나서 “이게 실제로 쓸만한가” 느낌 판정.
비용과 응답 속도는 별도 축으로 본다. 벤치마크는 이걸 평가하지 않는다.

이 영상 보고 내가 갱신한 규칙이 하나 있다. 벤치마크 점수와 내부 테스트 점수 사이 편차가 15% 이상 나는 모델은, 그 벤치마크를 앞으로 안 신뢰한다. 내 과제 분포와 벤치마크 분포가 크게 다르다는 증거니까.

1인 기업 관점의 시사점

혼자 사업을 하면 벤더 선택에 쏟을 시간이 없다. 그래서 “공식 숫자가 좋으니까 이거 써” 로 가기 쉬운데, 이 리포트는 그걸 정면으로 경고한다. 벤치마크가 리드할 수 있는 결론은 “이 후보를 시험해볼 가치가 있다” 까지다. 실제 의사결정은 내 파이프라인에서 15분 돌려본 샘플이 결정해야 한다.

그리고 리포트가 놓치고 있는 한 축 — 비용이 급격히 내려가고 있다 — 이 사실 1인 기업한테는 제일 큰 신호다. 작년에 감당 못 했던 모델을 올해는 쓸 수 있다. 벤치마크보다 이 곡선을 더 자주 들여다보는 게 낫다.

다음에 시도할 것

내 블로그 파이프라인의 기본 모델을 한 단계 저렴한 걸로 바꾸고, 평가자만 비싼 모델로 두는 GAN 하네스 구조 (저번 글) 를 적용해본다.
Vercel AI Gateway 를 써서 모델 스위칭을 한 줄 바꾸는 걸로 실험 가능하게 만든다.
리포트의 전체 pdf 를 Claude 에게 먹여 “우리 회사 평가 방식 중 이 리포트에 근거해 바꿔야 할 것” 을 뽑아보고 팀 노트로 남긴다.

영상 마지막 문장 — “AI 의 발전은 점수로만 평가될 수 없다” — 는 뻔한데, 2026 년에도 이 뻔한 말을 리포트가 다시 해야 할 만큼 사람들은 점수에 홀린다. 나도 포함.