Share This Article
‘지능’을 어떻게 잴 수 있을까 — 구글 딥마인드가 뇌과학으로 답하다
인공일반지능, 즉 AGI가 인류의 난제를 해결하고 과학적 발견을 가속화할 것이라는 기대는 이제 새롭지 않습니다. 그런데 정작 AGI에 얼마나 가까워졌는지 객관적으로 측정할 도구가 없었다는 사실은 잘 알려지지 않았습니다. 마치 운동선수의 실력을 오직 100미터 기록 하나로만 평가하는 것처럼, 지금까지의 AI 평가 방식은 지나치게 단편적이었습니다.
구글 딥마인드는 2024년 공개한 연구에서 인지과학의 렌즈를 통해 이 문제를 정면으로 다뤘습니다. 인간의 뇌가 어떻게 다양한 인지 능력을 조합해 ‘지능’을 구성하는지를 분석하고, 그 틀을 AI 평가에 적용한 것입니다. 이 프레임워크는 단순히 학술 논문에 머무르지 않고, 캐글(Kaggle) 해커톤을 통해 전 세계 연구자들이 실제 평가 도구를 함께 개발하도록 설계됐습니다.
연구자들이 발견한 것은 생각보다 구조적이었습니다. AGI의 ‘지능’은 하나의 점수로 환원될 수 없으며, 인간 인지처럼 여러 층위의 능력이 맞물려야 비로소 의미 있는 측정이 가능합니다.

10종 경기처럼 — AGI의 지능은 복합 종목이다
올림픽 10종 경기 선수를 평가할 때 100미터 달리기 기록 하나만 보지 않습니다. 단거리 질주, 허들, 멀리뛰기, 원반 던지기까지 열 가지 종목의 총합이 비로소 ‘진짜 육상 능력’을 보여줍니다. 구글 딥마인드 연구팀이 제안한 AGI 인지 프레임워크는 이 발상에서 출발합니다.
연구팀은 인지과학에서 수십 년간 축적된 인간 인지 능력 분류 체계를 참조해 AGI 평가 항목을 구조화했습니다. 단순 패턴 인식이나 언어 생성 능력만 보는 것이 아니라, 추론(reasoning), 계획(planning), 기억(memory), 일반화(generalization), 사회적 인지(social cognition) 등 복수의 축을 동시에 측정해야 한다는 것이 핵심 주장입니다.
인간의 뇌에서 전두엽이 계획과 의사결정을 담당하고, 해마가 에피소드 기억을 저장하며, 거울 뉴런 시스템이 타인의 의도를 읽는 것처럼 — 지능은 단일 회로가 아닌 여러 신경 회로의 협업입니다. AGI도 마찬가지로, 어느 한 벤치마크 점수가 높다고 해서 ‘지능이 높다’고 말할 수 없다는 논리입니다.
“AGI로의 진전을 측정하려면, 인지과학이 수십 년에 걸쳐 정의해 온 인간 능력의 폭과 깊이를 그대로 반영하는 평가 체계가 필요하다.”
— 구글 딥마인드 연구팀, DeepMind Blog (2024)
왜 지금까지 측정이 어려웠을까 — 기존 벤치마크의 맹점
GPT-4, 제미나이(Gemini) 같은 대형 언어모델이 등장하면서 AI는 수능 수학 문제를 풀고, 의사 국가고시를 통과하며, 변호사 시험에서 상위 10%에 드는 성적을 기록했습니다. 언뜻 보면 AGI에 이미 다가선 것처럼 보입니다.
그러나 구글 딥마인드 연구팀은 이 수치들이 ‘시험 잘 보는 능력’을 측정할 뿐이라고 지적합니다. 수능 1등급 학생이 낯선 환경에서 스스로 문제를 발견하고 해결하는 능력과는 다르듯, 기존 벤치마크는 새로운 맥락으로의 일반화나 다단계 계획 수립 같은 더 근본적인 인지 능력을 포착하지 못합니다.
연구팀이 특히 강조한 것은 ‘분포 외 일반화(out-of-distribution generalization)’입니다. 인간의 뇌는 한 번도 본 적 없는 상황에서도 기존 지식을 재조합해 새로운 해법을 만들어냅니다. 뇌의 전전두피질이 작업 기억과 추론 회로를 유연하게 연결하기 때문입니다. 현재의 AI 모델들은 이 유연성에서 인간과 여전히 큰 간극을 보입니다.

프레임워크의 구조 — 뇌과학이 설계한 평가 지도
구글 딥마인드의 인지 프레임워크는 크게 세 층위로 구성됩니다. 첫 번째는 기초 인지 능력입니다. 지각(perception), 주의(attention), 작업 기억(working memory)처럼 다른 고차 능력의 토대가 되는 기능들입니다. 인간의 뇌에서 이 기능들은 주로 감각 피질과 두정엽이 담당하며, AI에서는 입력 처리와 문맥 유지 능력에 해당합니다.
두 번째 층위는 고차 인지 능력입니다. 인과적 추론(causal reasoning), 유추(analogy), 계획 수립, 목표 지향 행동이 여기에 포함됩니다. 이 능력들은 전전두피질과 뇌섬엽의 협력 없이는 불가능하며, 현재 AI 모델들이 가장 취약한 영역이기도 합니다.
세 번째는 사회·감성 인지입니다. 타인의 믿음과 의도를 추론하는 마음 이론(theory of mind), 감정 이해, 협력 행동이 포함됩니다. 인간의 사회적 뇌 네트워크 — 내측 전전두피질, 측두두정 접합부 — 가 담당하는 이 영역은 AGI가 인간과 함께 일하기 위해 반드시 갖춰야 할 능력이지만, 현재 평가 체계에서는 거의 측정되지 않았습니다.
핵심 통찰
AGI의 지능은 단일 점수로 환원될 수 없습니다. 인간의 뇌처럼 기초 인지 → 고차 추론 → 사회적 인지의 세 층위가 모두 작동해야 비로소 ‘일반 지능’이라 부를 수 있습니다.
구글 딥마인드는 이 프레임워크를 오픈 해커톤 방식으로 공개해, 전 세계 연구자들이 각 층위의 평가 도구를 함께 설계하고 검증하도록 초대했습니다. 과학적 진보를 단일 기관이 독점하지 않겠다는 선언이기도 합니다.
한국 교육 현장에서 이 연구가 던지는 질문
이 프레임워크가 흥미로운 이유는 AI 연구를 넘어 교육의 본질에 대한 질문을 다시 던지기 때문입니다. 한국의 학생과 학부모, 교사들은 오랫동안 수능이라는 단일 벤치마크를 중심으로 ‘지능’과 ‘능력’을 평가해 왔습니다. 구글 딥마인드가 AI에서 발견한 문제 — 시험 점수는 높지만 실제 문제 해결 능력은 따로 논다는 것 — 는 한국 교육 현실의 거울처럼 읽힙니다.
특히 ‘분포 외 일반화’ 개념은 생각할 거리를 남깁니다. 익숙한 유형의 문제를 빠르게 푸는 능력과, 전혀 낯선 맥락에서 지식을 재조합해 해법을 찾는 능력은 다릅니다. 전전두피질 기반의 이 유연한 사고는 반복 훈련보다 탐구·토론·프로젝트 기반 학습 환경에서 더 잘 발달한다는 것이 인지과학의 일관된 연구 결과입니다.
AGI 시대가 다가올수록, 인간이 AI보다 잘해야 하는 것은 정형화된 문제 풀이가 아니라 바로 이 ‘세 번째 층위’ — 사회적 맥락을 읽고, 협력하며, 감정을 조율하는 능력 — 일 가능성이 높습니다. 학교 현장에서 이 능력을 어떻게 키울 것인지, 그리고 어떻게 평가할 것인지는 이제 교육 정책의 핵심 질문이 될 것입니다.
한 가지 유의할 점은, 구글 딥마인드의 프레임워크 자체가 아직 완성된 측정 도구가 아니라는 사실입니다. 연구팀도 인정하듯 각 인지 능력의 경계를 어디서 나눌지, 어떤 과제가 진정한 측정치가 될지는 지속적인 검증이 필요합니다. 이 프레임워크는 답이 아니라 ‘더 나은 질문을 던지는 방법’에 가깝습니다.
이 연구에서 우리가 지금 당장 쓸 수 있는 것들
- 단일 시험 점수를 넘어 ‘어떤 종류의 문제를 풀었는가’를 물어보세요. 자녀나 학생의 성취를 평가할 때, 점수 자체보다 “낯선 문제에 어떻게 접근했는가”를 함께 살펴보는 습관이 인지 유연성 발달에 실질적인 도움이 됩니다.
- AI 도구를 쓸 때 ‘일반화’ 한계를 의식하세요. ChatGPT나 제미나이가 특정 문제를 잘 푼다고 해서 비슷해 보이는 새로운 상황에도 신뢰할 수 있다는 뜻이 아닙니다. 결과를 항상 독립적으로 검증하는 루틴이 필요합니다.
- 협력·토론·역할극이 ‘사회적 인지’ 근육을 키웁니다. 구글 딥마인드가 AGI의 가장 어려운 층위로 꼽은 사회적 인지는, 인간 학습자에게는 팀 프로젝트와 토론으로 가장 효과적으로 발달합니다. 교사와 학부모가 의도적으로 이 환경을 만들어줄 필요가 있습니다.
- AGI 연구 커뮤니티에 관심을 가져보세요. 구글 딥마인드의 캐글 해커톤처럼, AGI 발전 측정에 대한 논의는 점점 더 열린 형태로 진행되고 있습니다. 연구자가 아니더라도 이 논의를 따라가는 것이 AI 시대 리터러시의 출발점입니다.
출처
구글 딥마인드 공식 블로그 — Measuring progress toward AGI: A cognitive framework
https://deepmind.google/blog/measuring-progress-toward-agi-a-cognitive-framework/


