본문 바로가기

IT 고찰/좋은 글

Tracing the thoughts of a large language model -Claude 기술 블로그-

유튜브 영상

2분 50초 정도 되는 영상

 

 

 

GeekNews 정리 글

 

대형 언어 모델의 사고 과정을 추적하기 | GeekNews

Claude 같은 언어 모델은 사람이 직접 프로그램한 것이 아니라 방대한 데이터로 학습됨학습 과정에서 문제 해결 전략을 스스로 학습하며, 이 전략은 수십억 개의 연산에 암호화되어 있음결과적으

news.hada.io

 

 

클로드 기술 블로그 글

 

https://www.anthropic.com/research/tracing-thoughts-language-model

 

 

 

실제 논문 

 

On the Biology of a Large Language Model

We investigate the internal mechanisms used by Claude 3.5 Haiku — Anthropic's lightweight production model — in a variety of contexts, using our circuit tracing methodology.

transformer-circuits.pub

 


 

인상 깊은 내용들

 

연구자들이 모델을 해석하는 관점에서 "신경과학"에서 영감을 받은 부분

 

뇌의 신경세포가 활성화되는 과정을 보면서, 어떤 행위, 감정, 느낌, 기억에 대해서 활성화되는 뇌 영역을 통해 뇌를 분석하듯이,

클로드 연구자들이 자신의 모델을 이해하는 과정에서 활성화되는 경로를 분석하고 있습니다.

 

이를 위해 개발한 도구가 AI 현미경입니다.

AI 현미경으로 모델의 추론 과정에서 활성화된 경로들의 패턴들을 분석하면서 발견된 몇 가지 특징이 있습니다.

해당 특징들을 뚜렷하게 확인하기 위해 몇가지 프롬프트를 통해 심층적으로 연구해서 정리한 내용이 위의 글입니다.

 

보편적 언어의 공간의 존재 가능성

다양한 언어를 학습하는 모델이 "생각"한다고 가정할 때, 모델은 어떤 언어로 생각을 할까라는 질문에 대해서 관찰된 내용에 따르면

여러 언어로부터 독립된 보편(universal) 언어를 위한 공간이 존재한다는 것이 관찰된다고 합니다. 

작다의 반대말이 뭘까? 라는 질문을 여러 언어로 수행했을 때 "큼"이라는 영역이 계속 활성화되었는데, "큼"이라는 영역은 특정 언어의 공간이 아닌 보편적 언어 공간에 머무르고 있다는 것을 확인했습니다.

 

이러한 현상을 보면 다양한 언어로 학습한 모델은 다양한 언어를 한 번 더 추상화한 보편적 "사고"의 공간을 만들고 있지 않나?라는 접근을 하게 됩니다.

 

AI 생물학의 등장

AI 생물학이라는 이름을 붙여 등장한 클로드의 논문을 보며, AI 모델을 계산의 관점과 패턴 학습의 관점으로만 보는 게 아니라, 다양한 학문의 관점으로 범위를 넓혀서 보는 접근이 좋았습니다.

 

단계별 추론을 수행하면서 답변을 생성하는 언어 모델


 

 

개인적인 생각

AI 현미경을 통해 LLM을 분석하는 과정이 참신했던 글입니다.

 

모델이 응답을 생성하는 과정에서 활성화된 경로를 살펴보면서 인간의 관점으로 해석하는 것이 가능한 "현상"들이 관측되기에 흥미로운 상황입니다.

 

특히 여러 언어들의 이데아 같은 보편적 언어 정보를 관리하는 공간이 있다는 점이 놀라웠는데, 이게 바벨탑 공간이 있는 건가.. 싶었습니다.

 

최근 Information이라는 책을 읽으면서 정보의 효율성에 대한 내용을 배우고 있습니다.

 

틱토크나이저를 통해 문장을 토큰으로 나누는 과정을 보면,

 

특정 언어는 더 많은 토큰이 소요되고, 특정 언어는 더 적은 토큰이 소요되는데, 정보의 관점에서 보면 같은 의미를 뜻하는 문장이 어떤 언어에서는 더 많은 정보가 필요하고, 어떤 언어에서는 저 적은 정보가 필요한 것입니다.

 

LLM언어 모델의 입장에서 보면 더 많고 적은 토큰과 독립되어 특정 개념을 가장 작은 정보량으로 관리하고, 이를 사용자가 원하는 언어로 변환만 할 수 있다면 LLM은 세상에 있는 정보들을 가장 효율적으로 다루는 공간을 만들 수 있는 "도구"가 될지도 모르겠습니다.

 

이외에도 LLM이 단순히 다음 단어를 예측하는 게 아닌, 추론의 과정과 시의 라임과 같이 방향성을 가지고 결과를 생성한다고 해석한 부분도 좋았습니다.

 

이러한 확장성 있는 관점으로 모델을 분석해 나간다면, 더 재밌고 흥미로운 현상들이 발견되지 않을까 합니다.

 

 

반응형