본문 바로가기

IT 고찰/좋은 글

도구가 많을수록 AI가 멍청해진다. [feat: geeknews]

geeknews

 

도구가 많을수록 AI가 멍청해진다: Dropbox Dash 팀의 Context Engine | GeekNews

Dropbox의 AI 어시스턴트 Dash 팀은 AI 에이전트에 도구(검색, 문서 편집 등)를 추가할수록 의사결정이 느려지고 정확도가 떨어지는 '분석 마비(analysis paralysis)' 현상을 발견했습니다. 이는 도구 설명

news.hada.io

 

https://dropbox.tech/machine-learning/how-dash-uses-context-engineering-for-smarter-ai

 

How Dash uses context engineering for smarter AI

Building effective, agentic AI isn’t just about adding more; it’s about helping the model focus on what matters most.

dropbox.tech

검색 툴들을 하나의 Dash Search Tool로 통합

 

개인 생각..

 

드롭박스 AI 어시스턴트 팀이 얻은 교훈.

많은 컨텍스트 보단, 적정한 양의 컨텍스트를 추구하여 AI의 집중력을 높이는 것

 

 

에이전트 시스템을 소개하다 보면, 임원분들의 경우 에이전트 시스템을 간단하게 추상화해서 이해하곤 합니다.

 

"LLM(추론) + 액션(Tool)의 반복과 조합".

 

[임원은..아무나 되는게 아닌 통찰력과 본질을 잘 보는 분들이구나 하는 생각이 들곤 합니다.]

 

LLM의 추론은 컨텍스트 범위 안에서 수행되며, 필요할 경우 API 호출과 같은 액션을 선택합니다. (액션은 LLM에 주입하는 선택사항)

 

해당 글을 보면, 드롭박스 팀은 사용자의 질문을 위해 다양한 검색 툴을 준비했던 것으로 보입니다.

 

  • 구글 캘린더 검색
  • 위키 검색
  • Dropbox 문서 검색
  • Notion 페이지 검색

등등...

 

 

 

드롭박스 팀에서는 어떤 방식으로 Tool을 하나의 범용 검색 툴로 통합했는지 모르겠지만,

 

그 과정에서 툴 스펙을 엄청나게 줄이면서 AI의 툴 활용도의 품질이 많이 개선된 것으로 보입니다.

 

컨텍스트와 관련된 문제는 드롭박스 팀뿐만 아니라 에이전트 시스템을 다루는 많은 개발자들의 공통된 고충입니다.

 

에이전트의 성능은 결국 컨텍스트 설계가 중심(프롬프트 엔지니어링, 툴 스펙)에 있는데,

 

Tool의 경우 Tool 마다 수십~수백 라인의 스펙이 존재하고,

 

Tool이 늘어날수록 컨텍스트에 구성된 여러 정보들의 범위의 비중이 어긋나면서,

 

LLM의 추론에서 균형이 무너지고 혼란이 생기는 것입니다.

 

여기에 다른 컨텍스트들(이력, 시스템 프롬프트, 유저 프롬프트)까지 추가되면서 콘텍스트가 커지게 되고, AI 작업의 방향성을 불안정하게 되는 것으로 보입니다.

 

저는 생성형 AI를 종종 불완전한 정보를 완전성으로 향하게 만드는 통계 도구로 바라보는 편입니다.

 

AI는 제공된 정보에서 다음의 정보들 중 "가장 안정성이 높은 다음 정보"를 연속적으로 이어가며 최종적으로 높은 일관성과 완전성을 지닌 답으로 만들어줍니다.

 

그런 도구에 다양한 맥락(스펙)을 주입하는 시도는, AI가 가장 잘 수행할 수 있는 작업에 잡음을 넣는 행위라고 생각됩니다.

 

이번 드롭박스의 사례는 앞으로 에이전트 시스템의 발전 방향을 시사해주고 있습니다.

 

지금 당장 중요한 엔지니어링은 컨텍스트를 중심에 두고 있는 것 같습니다.

[EX. 툴을 최소화 할 수 있도록 사전 작업 진행, 제안할 툴 목록 자체를 좁히기 등등..]

 

그리고 컨텍스트 단위가 에이전트 단위가 되지 않을까 싶고, 이러한 방향은 객체지향적 사고(역할, 관계)로 이어질 것 같습니다.