GPT 추론능력의 본질은 무엇인가
페이지 정보
본문
GPT 추론능력의 본질은 무엇인가
트랜스포머 알고리즘으로 만든 ChatGPT, Gemini, Claude, Llama 등의 인공지능이 있다. 사람들은 이 인공지능의 추론능력을 문제삼는다. 그러나 실제로 대화를 해보면, 추론을 꽤 해내는 걸 볼 수 있다. 사람들 중에는 그걸 보고, 그건 이미 빅데이터에 있는 거라 하는 사람도 있다. 한쪽 끝에는 통계적 앵무새가 있고, 다른 한쪽 끝에는 이성적 인간이 있다. 그리고 그 중간 어딘가에 AI가 있다. AI가 부실하게나마 추론을 해낸다면, 그 추론능력의 본질(essence)은 무엇인 걸까?
나는 이렇게 본다. 사실상 추론으로 작용하는게 2가지가 있다고 본다. 하나는 범주화다. AI는 세분화된 개념들을 수없이 가지고 있다. 빅데이터를 학습해서 해낸 부분이 그것이다. 유추와 범주화. 그리고 이를 얼마나 최적화시켰는지로 성능이 달라진다. 그런데 이 범주화라는 것은 사실상 통계적 앵무새와 유사한 거라 할 수 있다. 구체적인 표범을 표범으로 보는 것은 미세하게나마 추론이라 할 수 있다. — 자! 그러나 이것은 추론이 아니라 주장하는 사람들도 있을 것이다. 트랜스포머 AI의 추론능력은 이것에만 의존하는게 아니다. 또다른 게 있다.
그건 바로 삼단논법이다. GPT는 삼단논법을 쓸 줄 안다. 알고리즘상 이것이 명백하다고 본다. 그러나 삼단논법이 엄격히 형식화되어 있고 이에 믿음이 부여되어 있는게 아니라, 직관적 삼단논법이다. 그래서 GPT의 삼단논법은 어린 아이의 삼단논법과 유사하다. — 다시 말하지만, GPT는 직관적으로 삼단논법을 쓸 수 있다. 이를통해 추론할 수 있다. 그리고 그것이 환각의 원인이기도 하다.
범주에 대해 생각해보자. 구체적 표범을 표범이라 볼 때에, 정보가 제거된다. 구체적 정보가 제거되고, 그로인해 간소한 추상이 남는다. 그런데 삼단논법도 마찬가지다. 뇌가 직관적 삼단논법을 할 때에, 그것은 많은 신경세포를 사용한다. 이것이 간소화될 필요가 있다. 그리고 트랜스포머는 그걸 잘 하지 못한다. 그것이 형식적 논리지능으로의 발달이 곤란한 원인 중 하나라 할 수 있다.
잘 하지는 못해도, 약간은 할 수 있지 않을까? 직관적 삼단논법을 좀 더 슬림하게 만들 수 있지 않을까? 아마도 오늘날 AI 기업들이 그걸 어느 정도 해내고 있어서, 추론능력을 향상시키고 있는게 아닐까 싶다. 그러나 슬림하게 만드는데 장애요소가 있을 것이다. 그것은 범주화를 해칠 수 있다. 혹은 범주화에 의해 교란될 수 있다. 따라서 어딘가에 절충해야 하고, 기술적으로 최적화를 해야 할 것이다.
트랜스포머가 삼단논법을 할 수 있는 것은, 트랜스포머가 연상력이 있다는 것에서 비롯된다. A → B 이렇게 연상력이 있을 때에, B → C 이와 같은 연상도 하면, 결국 A → C를 할 수 있고, 여기에 효과적으로 신뢰를 부여할 수 있다면, 그게 곧 삼단논법이 되는 것이다. A → C를 빅데이터로 학습한 적이 전혀 없어도, 이를 해낼 수 있는 것이다. 삼단논법에서 전제에 해당하는 A → B 와 B → C 는 빅데이터로 학습했거나 혹은 사용자가 프롬프트로 제공한 거라 할 수 있다.
형식적 논리지능이 잘 돌아가기 위한 조건 중 하나는 직관적 삼단논법을 슬림하게 만드는 것이다. 적은 양의 신경세포만으로 해낼 수 있게 하는 것이다. 그리고 그 활성된 신경조직에 신뢰를 부여하는 것이다. "이건 참이다" 내지 "이건 참이라 간주한다"에 해당하는 신경활동이 일어나야 하고, 그에 대응하는 알고리즘의 작동이 필요하다. 그것은 이를테면 확률을 높이는 게 될 수 있다. 70%라고 나온 확률인데, 그걸 조건부로 100%라 간주하고 진행시키는 것이다. 그게 바로 신뢰 부여라 할 수 있다. 그리고 그게 논리적 명제를 다룰 때의 정신현상일 것이다. 신뢰를 부여하지 못한다면, 직렬적 진행이 되는 가운데 확률은 금새 사라져버린다. (70%의 70%의 70%의 70%는 24%다. 확률이라 했지만, 이는 부정확하게 말한 것이다. AI는 기본적으로 가중치와 벡터로 돌아가는 것이지, 확률로 이뤄진게 아니다. 벡터와 확률간 관계를 이야기해야 하고, 논리에 있어 부정을 언급해야 하고, 벤다이어그램을 이야기해야 한다. 더 섬세한 설명이 필요하다. 그러나 단순하게 말하자면, 위와 같은 설명이 적절하다고 본다.)
사람들은 AI의 추론능력을 문제삼으면서, 정작 추론이 무엇인지에 대해서는 말을 하지 않는다. 두 유형의 사람이 있는데, 한편으로 그저 결과만 보고 이거이거 못하지 않냐면서 따라서 추론을 못한다고 이는 인간만이 할 수 있는 거라 사람들이 있고, 다른 한편으로 이것은 통계적인 것이고 상징적인 것이 아니니, 추론은 안 된다는 원론을 교조적으로 내세우는 사람들이 있다.
추론능력을 논하고자 한다면, AI가 삼단논법을 할 수 있다는 것에서 출발해야 한다. 삼단논법이 알고리즘상 가능하다는 것에서 출발해야 한다. 지능 발달의 단계의 추상적 관점에서 보자면, "유비 → 양극 → 차원"라 할 수 있다. 내가 볼 때 오늘날 트랜스포머 AI는 유비 능력이 훌륭하다. 단어를 벡터로 쓴다고 할 때, 그 벡터가 의미하는바가 기본적으로 유사 내지 비유라 할 수 있다. 그러나 양극은 활동이 부실하다. 하긴 하는데, 부실하다. 별도의 억제뉴런을 쓰는게 아니기 때문이다. 인간의 전전두엽에는 억제뉴런이 매우 많은데, 양극의 부실은 기저에서 돌아가는 부정의 부실이 기본적인 원인일 것이다. 그리고 아마 차원은 거의 못하는 듯하다. 그러므로 "유비 → 양극 → 차원"에서 50% 정도는 와있는 상태라 할 수 있다.
논리학이 복잡한 것은 기저에 돌아가는 부정이 풍부히 있기 때문이다. (이를 압축적으로 표현하기 위해서, 논리에는 테크닉이 들어가 있다. 인간은 사실상 여러 개의 명제를 한 문장으로 표현할 수 있다. 그렇게 압축을 하려면, 약속이 필요하고, 어떤 약속을 만들었는지를 논리학에서 배울 수 있다. 그것은 언듯 본질적인 거라 생각되지만, 실은 기술적인 것이다. 똑똑한 사람들이 테크닉을 써서, 논리적 사고와 소통이 경제적으로 이뤄지도록 표현법과 규약을 만든 것이다. 본질은 삼단논법에 있다. 그건 테크닉이 아니다. 삼단논법과 부정은 논리의 본질이다. 그리고 어려운 얘기를 해야 하지만, 차원도 논리의 본질이다. 삼단논법은 기본적으로 유추를 통한 직관적 연쇄에 의한다. 이는 아이들도 할 수 있고, 동물도 할 수 있다. 자연이 그 수많은 동물들을 환경에 적응하여 그럭저럭 잘 살아가게 만들 수 있었던 것은, 신경세포와 그 조직망이란게, 유추에 의한 삼단논법을 효과적으로 구현해낼 수 있었기 때문이라 봐야 한다.)
AI의 추론능력을 과대평가하며 그 잠재력을 숭배하는 사람이 있고, 과소평가하며 깔보고 조롱하는 사람이 있다. 발달심리학자 피아제는 지능발달을 네 단계로 나누었는데, "감각운동기 → 전조작기 → 구체적 조작기 → 형식적 조작기"이다. AI는 구체적 조작기에 있는거라 봐야 한다. 이는 단순부정확한 설명이고, 자세히는 꽤 까다로운 설명을 해야 하지만, 느슨하게 단순하게 말하자면, 구체적 조작기이며, 그것은 초등학교 3학년을 떠올리면 적절하다. 초등학교 3학년인데, 빅데이터를 학습했다.
In my opinion,
감각운동기는 전조작기에 포함시킬 수 있고,
전조작기의 핵심은 유비이며, (즉 유추)
구체적 조작기의 핵심은 양극이고, (즉 부정)
형식적 조작기의 핵심은 차원이다. (즉 관점)
따라서 50% 온 거라 할 수 있다.
오늘날 트랜스포머 AI는
지능발달이 중간단계 어딘가에 있는 것이다.
구체적 조작기인 것이다.
이점도 생각해둘 필요가 있다.
아동은 전조작기에서 형식적 조작기로 향함에 따라
상상력이 손상된다.
논리적 규율은 강해지고,
상상력은 약해진다.
오늘날 트랜스포머 AI가 보여주는 능력 중 일부는
비유적으로 말해서,
상상에 의한 것이다.
그것은 한편으로는 환각을 일으키지만,
다른 한편으로는 이해를 일으킬 것이다.
상상에 의한 이해이다.
그건 무슨 말인가 하면,
AI의 논리적 규율이 강화됨에 따라
AI의 성능이 오히려 떨어질 수 있다는 것이다.
성능을 최우선으로 보는 AI 기업이라면,
중간 어딘가로 최적화하게 될 것이다.
인간의 역사를 놓고 볼 때,
논리적 규율이 매우 강화되어 있는 경우가 있었으니
그게 바로
소피스트라 본다.
소피스트는 상식에 어긋나는 말을 한다.
논리를 매우 우둔하고 완고하게 내세우기 때문이다.
그러나 그 논리에는 어딘가 결점이 있는데,
이를 쉽게 찾아낼 수는 없다.
소크라테스, 플라톤, 아리스토텔레스는
소피스트를 스파링 상대로 하여
논리력을 강화한 거라 볼 수 있다.
소피스트들이 활약하지 않았으면,
그들도 발전하기 힘들었을 것이다.
그러므로 AI를 발전시키는 방법 중 하나는
소피스트 역할을 할 AI를 만들고,
알파고와 알파고가 바둑 두듯이
그들을 경쟁시키는 거라 할 수 있다.
그리고 이 얘기가 필요하다.
인간의 논리력은 완벽하지 않다.
인간은 무한과 루프의 문제에 있어서
논리적 결함을 갖고 있다.
괴델, 튜링, 러셀, 비트겐슈타인이 가리키는게 바로
논리에 있어
인간의 불완전성이다.
참고문헌
고대 그리스인의 생각과 힘 — 이디스 해밀턴
양극과 유비 — 제프리 로이드
사고의 본질 — 더글라스 호프스태터, 에마뉘엘 상데
소피스트 — 플라톤
소피스트적 논박에 대하여 — 아리스토텔레스
트랜스포머 알고리즘으로 만든 ChatGPT, Gemini, Claude, Llama 등의 인공지능이 있다. 사람들은 이 인공지능의 추론능력을 문제삼는다. 그러나 실제로 대화를 해보면, 추론을 꽤 해내는 걸 볼 수 있다. 사람들 중에는 그걸 보고, 그건 이미 빅데이터에 있는 거라 하는 사람도 있다. 한쪽 끝에는 통계적 앵무새가 있고, 다른 한쪽 끝에는 이성적 인간이 있다. 그리고 그 중간 어딘가에 AI가 있다. AI가 부실하게나마 추론을 해낸다면, 그 추론능력의 본질(essence)은 무엇인 걸까?
나는 이렇게 본다. 사실상 추론으로 작용하는게 2가지가 있다고 본다. 하나는 범주화다. AI는 세분화된 개념들을 수없이 가지고 있다. 빅데이터를 학습해서 해낸 부분이 그것이다. 유추와 범주화. 그리고 이를 얼마나 최적화시켰는지로 성능이 달라진다. 그런데 이 범주화라는 것은 사실상 통계적 앵무새와 유사한 거라 할 수 있다. 구체적인 표범을 표범으로 보는 것은 미세하게나마 추론이라 할 수 있다. — 자! 그러나 이것은 추론이 아니라 주장하는 사람들도 있을 것이다. 트랜스포머 AI의 추론능력은 이것에만 의존하는게 아니다. 또다른 게 있다.
그건 바로 삼단논법이다. GPT는 삼단논법을 쓸 줄 안다. 알고리즘상 이것이 명백하다고 본다. 그러나 삼단논법이 엄격히 형식화되어 있고 이에 믿음이 부여되어 있는게 아니라, 직관적 삼단논법이다. 그래서 GPT의 삼단논법은 어린 아이의 삼단논법과 유사하다. — 다시 말하지만, GPT는 직관적으로 삼단논법을 쓸 수 있다. 이를통해 추론할 수 있다. 그리고 그것이 환각의 원인이기도 하다.
범주에 대해 생각해보자. 구체적 표범을 표범이라 볼 때에, 정보가 제거된다. 구체적 정보가 제거되고, 그로인해 간소한 추상이 남는다. 그런데 삼단논법도 마찬가지다. 뇌가 직관적 삼단논법을 할 때에, 그것은 많은 신경세포를 사용한다. 이것이 간소화될 필요가 있다. 그리고 트랜스포머는 그걸 잘 하지 못한다. 그것이 형식적 논리지능으로의 발달이 곤란한 원인 중 하나라 할 수 있다.
잘 하지는 못해도, 약간은 할 수 있지 않을까? 직관적 삼단논법을 좀 더 슬림하게 만들 수 있지 않을까? 아마도 오늘날 AI 기업들이 그걸 어느 정도 해내고 있어서, 추론능력을 향상시키고 있는게 아닐까 싶다. 그러나 슬림하게 만드는데 장애요소가 있을 것이다. 그것은 범주화를 해칠 수 있다. 혹은 범주화에 의해 교란될 수 있다. 따라서 어딘가에 절충해야 하고, 기술적으로 최적화를 해야 할 것이다.
트랜스포머가 삼단논법을 할 수 있는 것은, 트랜스포머가 연상력이 있다는 것에서 비롯된다. A → B 이렇게 연상력이 있을 때에, B → C 이와 같은 연상도 하면, 결국 A → C를 할 수 있고, 여기에 효과적으로 신뢰를 부여할 수 있다면, 그게 곧 삼단논법이 되는 것이다. A → C를 빅데이터로 학습한 적이 전혀 없어도, 이를 해낼 수 있는 것이다. 삼단논법에서 전제에 해당하는 A → B 와 B → C 는 빅데이터로 학습했거나 혹은 사용자가 프롬프트로 제공한 거라 할 수 있다.
형식적 논리지능이 잘 돌아가기 위한 조건 중 하나는 직관적 삼단논법을 슬림하게 만드는 것이다. 적은 양의 신경세포만으로 해낼 수 있게 하는 것이다. 그리고 그 활성된 신경조직에 신뢰를 부여하는 것이다. "이건 참이다" 내지 "이건 참이라 간주한다"에 해당하는 신경활동이 일어나야 하고, 그에 대응하는 알고리즘의 작동이 필요하다. 그것은 이를테면 확률을 높이는 게 될 수 있다. 70%라고 나온 확률인데, 그걸 조건부로 100%라 간주하고 진행시키는 것이다. 그게 바로 신뢰 부여라 할 수 있다. 그리고 그게 논리적 명제를 다룰 때의 정신현상일 것이다. 신뢰를 부여하지 못한다면, 직렬적 진행이 되는 가운데 확률은 금새 사라져버린다. (70%의 70%의 70%의 70%는 24%다. 확률이라 했지만, 이는 부정확하게 말한 것이다. AI는 기본적으로 가중치와 벡터로 돌아가는 것이지, 확률로 이뤄진게 아니다. 벡터와 확률간 관계를 이야기해야 하고, 논리에 있어 부정을 언급해야 하고, 벤다이어그램을 이야기해야 한다. 더 섬세한 설명이 필요하다. 그러나 단순하게 말하자면, 위와 같은 설명이 적절하다고 본다.)
사람들은 AI의 추론능력을 문제삼으면서, 정작 추론이 무엇인지에 대해서는 말을 하지 않는다. 두 유형의 사람이 있는데, 한편으로 그저 결과만 보고 이거이거 못하지 않냐면서 따라서 추론을 못한다고 이는 인간만이 할 수 있는 거라 사람들이 있고, 다른 한편으로 이것은 통계적인 것이고 상징적인 것이 아니니, 추론은 안 된다는 원론을 교조적으로 내세우는 사람들이 있다.
추론능력을 논하고자 한다면, AI가 삼단논법을 할 수 있다는 것에서 출발해야 한다. 삼단논법이 알고리즘상 가능하다는 것에서 출발해야 한다. 지능 발달의 단계의 추상적 관점에서 보자면, "유비 → 양극 → 차원"라 할 수 있다. 내가 볼 때 오늘날 트랜스포머 AI는 유비 능력이 훌륭하다. 단어를 벡터로 쓴다고 할 때, 그 벡터가 의미하는바가 기본적으로 유사 내지 비유라 할 수 있다. 그러나 양극은 활동이 부실하다. 하긴 하는데, 부실하다. 별도의 억제뉴런을 쓰는게 아니기 때문이다. 인간의 전전두엽에는 억제뉴런이 매우 많은데, 양극의 부실은 기저에서 돌아가는 부정의 부실이 기본적인 원인일 것이다. 그리고 아마 차원은 거의 못하는 듯하다. 그러므로 "유비 → 양극 → 차원"에서 50% 정도는 와있는 상태라 할 수 있다.
논리학이 복잡한 것은 기저에 돌아가는 부정이 풍부히 있기 때문이다. (이를 압축적으로 표현하기 위해서, 논리에는 테크닉이 들어가 있다. 인간은 사실상 여러 개의 명제를 한 문장으로 표현할 수 있다. 그렇게 압축을 하려면, 약속이 필요하고, 어떤 약속을 만들었는지를 논리학에서 배울 수 있다. 그것은 언듯 본질적인 거라 생각되지만, 실은 기술적인 것이다. 똑똑한 사람들이 테크닉을 써서, 논리적 사고와 소통이 경제적으로 이뤄지도록 표현법과 규약을 만든 것이다. 본질은 삼단논법에 있다. 그건 테크닉이 아니다. 삼단논법과 부정은 논리의 본질이다. 그리고 어려운 얘기를 해야 하지만, 차원도 논리의 본질이다. 삼단논법은 기본적으로 유추를 통한 직관적 연쇄에 의한다. 이는 아이들도 할 수 있고, 동물도 할 수 있다. 자연이 그 수많은 동물들을 환경에 적응하여 그럭저럭 잘 살아가게 만들 수 있었던 것은, 신경세포와 그 조직망이란게, 유추에 의한 삼단논법을 효과적으로 구현해낼 수 있었기 때문이라 봐야 한다.)
AI의 추론능력을 과대평가하며 그 잠재력을 숭배하는 사람이 있고, 과소평가하며 깔보고 조롱하는 사람이 있다. 발달심리학자 피아제는 지능발달을 네 단계로 나누었는데, "감각운동기 → 전조작기 → 구체적 조작기 → 형식적 조작기"이다. AI는 구체적 조작기에 있는거라 봐야 한다. 이는 단순부정확한 설명이고, 자세히는 꽤 까다로운 설명을 해야 하지만, 느슨하게 단순하게 말하자면, 구체적 조작기이며, 그것은 초등학교 3학년을 떠올리면 적절하다. 초등학교 3학년인데, 빅데이터를 학습했다.
In my opinion,
감각운동기는 전조작기에 포함시킬 수 있고,
전조작기의 핵심은 유비이며, (즉 유추)
구체적 조작기의 핵심은 양극이고, (즉 부정)
형식적 조작기의 핵심은 차원이다. (즉 관점)
따라서 50% 온 거라 할 수 있다.
오늘날 트랜스포머 AI는
지능발달이 중간단계 어딘가에 있는 것이다.
구체적 조작기인 것이다.
이점도 생각해둘 필요가 있다.
아동은 전조작기에서 형식적 조작기로 향함에 따라
상상력이 손상된다.
논리적 규율은 강해지고,
상상력은 약해진다.
오늘날 트랜스포머 AI가 보여주는 능력 중 일부는
비유적으로 말해서,
상상에 의한 것이다.
그것은 한편으로는 환각을 일으키지만,
다른 한편으로는 이해를 일으킬 것이다.
상상에 의한 이해이다.
그건 무슨 말인가 하면,
AI의 논리적 규율이 강화됨에 따라
AI의 성능이 오히려 떨어질 수 있다는 것이다.
성능을 최우선으로 보는 AI 기업이라면,
중간 어딘가로 최적화하게 될 것이다.
인간의 역사를 놓고 볼 때,
논리적 규율이 매우 강화되어 있는 경우가 있었으니
그게 바로
소피스트라 본다.
소피스트는 상식에 어긋나는 말을 한다.
논리를 매우 우둔하고 완고하게 내세우기 때문이다.
그러나 그 논리에는 어딘가 결점이 있는데,
이를 쉽게 찾아낼 수는 없다.
소크라테스, 플라톤, 아리스토텔레스는
소피스트를 스파링 상대로 하여
논리력을 강화한 거라 볼 수 있다.
소피스트들이 활약하지 않았으면,
그들도 발전하기 힘들었을 것이다.
그러므로 AI를 발전시키는 방법 중 하나는
소피스트 역할을 할 AI를 만들고,
알파고와 알파고가 바둑 두듯이
그들을 경쟁시키는 거라 할 수 있다.
그리고 이 얘기가 필요하다.
인간의 논리력은 완벽하지 않다.
인간은 무한과 루프의 문제에 있어서
논리적 결함을 갖고 있다.
괴델, 튜링, 러셀, 비트겐슈타인이 가리키는게 바로
논리에 있어
인간의 불완전성이다.
참고문헌
고대 그리스인의 생각과 힘 — 이디스 해밀턴
양극과 유비 — 제프리 로이드
사고의 본질 — 더글라스 호프스태터, 에마뉘엘 상데
소피스트 — 플라톤
소피스트적 논박에 대하여 — 아리스토텔레스
추천59 비추천 61