AI 에이전트, 혁신적인 프레임워크 'CoTools'

AI 에이전트, 처음 보는 도구도 척척? 혁신적인 프레임워크 'CoTools' 심층 분석

안녕하세요! 최신 AI 기술 트렌드를 발 빠르게 전해드리는 IT 탐험가입니다. 요즘 인공지능(AI) 분야의 가장 뜨거운 화두 중 하나는 바로 'AI 에이전트'입니다. 단순히 텍스트를 생성하거나 질문에 답하는 것을 넘어, 스스로 목표를 설정하고, 필요한 도구를 활용해 문제를 해결하는 능동적인 AI 에이전트의 시대가 성큼 다가오고 있습니다.

영화 '아이언맨'의 자비스처럼, 우리의 요청을 알아듣고 인터넷 검색, 예약, 계산 등 다양한 작업을 척척 해내는 AI 비서를 상상해 보세요. 이런 AI 에이전트를 현실로 만들기 위한 핵심 기술 중 하나가 바로 대형언어모델(LLM)이 외부 '도구(tool)'를 얼마나 잘 활용하는가입니다. 계산기, 검색 엔진, 특정 프로그램 API, 데이터베이스 등 LLM이 마치 사람처럼 다양한 도구를 자유자재로 사용할 수 있어야 진정한 의미의 에이전트가 될 수 있기 때문이죠.

하지만 기존 방식에는 한계가 있었습니다. LLM에게 특정 도구 사용법을 가르치기 위해 '미세조정(fine-tuning)'이라는 과정을 거쳐야 했는데, 이는 시간과 비용이 많이 들 뿐만 아니라, LLM이 학습한 도구만 사용할 수 있고, 심지어 미세조정 과정에서 원래 가지고 있던 뛰어난 추론 능력이 저하될 수도 있다는 문제점을 안고 있었습니다.

이런 고민을 해결하기 위해, 중국 쑤저우대학교 연구진이 "처음 보는 도구도 맥락에 맞게 적절히 활용할 수 있는" 혁신적인 AI 에이전트 프레임워크, '도구의 사슬(Chain of Tools, 이하 CoTools)'을 제안하며 큰 주목을 받고 있습니다. (참고문헌 1)

오늘은 이 CoTools가 무엇인지, 어떤 원리로 작동하며 기존 방식과 무엇이 다른지, 그리고 AI 에이전트의 미래에 어떤 가능성을 제시하는지 쉽고 상세하게 알아 보겠습니다!

기존 방식의 한계: "배운 것만 할 줄 아는 AI"

AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 수행하려면 외부 도구와의 연동이 필수적입니다. 예를 들어, "오늘 서울 날씨를 검색해서 내일 친구와의 약속 장소 근처 맛집 좀 추천해줘"라는 요청을 처리하려면, LLM은 ▲날씨 정보 API(도구 1)를 호출하고, ▲지도/맛집 정보 API(도구 2)를 검색하고, ▲그 결과를 종합해서 자연스러운 문장으로 답변해야 합니다.

기존에는 이러한 능력을 LLM에 부여하기 위해 주로 미세조정 방식을 사용했습니다. 특정 도구의 사용법(어떤 상황에, 어떤 명령어로 호출하고, 결과를 어떻게 해석하는지 등)에 대한 방대한 예시 데이터를 만들어 LLM을 추가로 학습시키는 것이죠.

하지만 이 방식은 몇 가지 명확한 한계점을 가집니다.

제한된 도구 활용: 미세조정은 LLM이 학습 과정에서 접했던 도구에 대해서만 사용법을 익히게 합니다. 세상에는 무수히 많은 도구와 API가 존재하고 계속해서 새로 생겨나는데, 이를 모두 미세조정 데이터에 포함하는 것은 현실적으로 불가능합니다. 즉, 처음 보는 새로운 도구에는 속수무책이라는 치명적인 단점이 있습니다.
추론 능력 저하 위험: LLM 전체를 특정 작업(도구 사용)에 맞춰 추가 학습시키는 과정에서, 모델이 원래 가지고 있던 광범위한 지식이나 유연한 추론 능력이 손상(catastrophic forgetting)될 수 있습니다. 특정 작업에는 능숙해질지 몰라도, 다른 일반적인 작업 수행 능력이 떨어지는 부작용이 발생할 수 있다는 의미입니다. (참고문헌 2)
높은 비용과 시간: 새로운 도구가 추가될 때마다 방대한 데이터를 구축하고 모델 전체를 다시 미세조정하는 것은 상당한 컴퓨팅 자원과 시간이 소요됩니다. 이는 AI 에이전트 개발 및 업데이트의 민첩성을 떨어뜨리는 요인이 됩니다.

이러한 한계를 극복하고, LLM이 더욱 유연하고 효율적으로 다양한 도구를 활용할 수 있도록 하는 새로운 접근 방식이 필요했습니다. 그리고 CoTools는 바로 이 지점에서 혁신적인 해결책을 제시합니다.

CoTools 등장: "처음 보는 도구도 OK!" 새로운 패러다임

CoTools의 핵심 목표는 명확합니다. LLM이 미세조정 없이도, 심지어 학습 과정에서 한 번도 본 적 없는(unseen) 도구까지도, 추론 과정 중에 필요에 따라 적절하게 선택하고 활용할 수 있도록 만드는 것입니다. 마치 사람이 새로운 앱이나 프로그램을 접했을 때, 설명서를 보거나 몇 번 시도해보면서 사용법을 익혀나가는 것과 유사한 방식이라고 할 수 있습니다.

이를 가능하게 하는 CoTools의 핵심 전략은 크게 두 가지입니다.

LLM 핵심 기능 동결 (Frozen LLM): CoTools는 LLM 모델 자체를 추가로 학습시키거나 수정하지 않습니다. LLM의 뛰어난 언어 이해 및 추론 능력은 그대로 보존(frozen)하면서, 도구 사용과 관련된 기능만 별도의 '가벼운 특화 모듈'을 통해 처리합니다. 이는 미세조정으로 인한 LLM의 핵심 능력 손상 위험을 원천적으로 차단합니다.
숨겨진 상태(Hidden States) 활용 + 맥락 내 학습(ICL): CoTools는 LLM이 응답을 생성하는 중간 과정에서 나타나는 내부적인 정보, 즉 '숨겨진 상태(hidden states)'를 활용합니다. 이는 LLM의 '생각의 흐름'과 같은 정보로, 이를 분석하여 "지금 이 시점에 도구를 사용하는 것이 적절한가?", "만약 사용한다면 어떤 도구가 가장 적합한가?"를 판단합니다. 그리고 실제 도구 호출은 LLM의 강력한 '맥락 내 학습(In-Context Learning, ICL)' 능력을 이용합니다. ICL은 LLM에게 별도의 학습 없이, 프롬프트(지시문) 내에 몇 가지 예시(few-shot examples)만 제공해주면 새로운 작업을 수행할 수 있는 능력을 말합니다. (참고문헌 3) CoTools는 이 ICL을 활용하여 LLM이 선택된 도구를 어떻게 호출해야 하는지 즉석에서 이해하고 실행하도록 유도합니다.

즉, CoTools는 LLM의 기존 능력은 최대한 유지하면서, 마치 보조 장치를 달아주듯 도구 사용 능력을 확장하는 영리한 접근 방식을 취하는 것입니다. 논문의 부제인 "동결된 언어 모델의 CoT 추론에서 방대한 보이지 않는 도구 활용(Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models)"은 이러한 핵심 아이디어를 함축적으로 보여줍니다. (CoT는 Chain-of-Thought, 즉 단계별 추론 능력을 의미하기도 합니다.)

CoTools 작동 원리: 세 가지 모듈의 환상적인 협업

CoTools 프레임워크는 크게 세 가지 핵심 모듈이 유기적으로 작동하며 LLM의 도구 활용을 돕습니다. 이들은 마치 잘 훈련된 전문가 팀처럼 각자의 역할을 수행합니다.

도구 판단기 (Tool Judge): "지금 도구가 필요한 타이밍인가?"
- 역할: LLM이 텍스트를 생성하는 과정에서, 현재 생성 중인 토큰(단어 또는 하위 단어)의 '숨겨진 상태'를 실시간으로 분석합니다. 이를 통해 다음에 이어질 내용이 외부 도구를 호출하는 것이 맥락상 적절한지, 즉 "도구 사용 여부"를 결정하는 '판단자' 역할을 합니다. 예를 들어, "123 * 456 = ?"과 같은 계산 요청이 들어왔을 때, '=' 직전의 숨겨진 상태를 보고 '아, 이제 계산기 도구를 써야 할 때군!'이라고 판단하는 식입니다.
- 특징: LLM의 최종 출력에는 직접적인 영향을 주지 않으면서, 내부적인 추론 흐름(숨겨진 상태)을 바탕으로 도구 사용의 필요성을 감지합니다.
도구 검색기 (Tool Retriever): "수많은 도구 중 어떤 것을 써야 할까?"
- 역할: 도구 판단자가 '도구 사용 결정'을 내리면, 이어서 도구 검색기가 작동합니다. 사용자의 현재 쿼리(질문이나 요청) 내용과 가장 관련성이 높고 적합한 도구를 사용 가능한 도구 풀(pool) 안에서 찾아내는 '검색 전문가'입니다. 예를 들어, "파리의 현재 날씨"를 묻는 쿼리가 들어오면, 수많은 도구 중에서 '날씨 정보 API'나 '실시간 도시 정보 검색 도구'를 가장 적합한 후보로 찾아냅니다.
- 특징: 방대한 도구 목록(수천 개 이상도 가능) 속에서도 쿼리의 의미를 이해하고 가장 적절한 도구를 효율적으로 선택하도록 훈련되었습니다. 특히, 학습 데이터에 없었던 처음 보는 도구라도 그 기능 설명을 바탕으로 관련성을 판단하여 선택할 수 있다는 점이 중요합니다.
도구 호출 (Tool Calling): "찾은 도구, 이렇게 사용하면 돼!"
- 역할: 도구 검색기가 최적의 도구를 찾아내면, 마지막으로 LLM이 해당 도구를 실제로 사용하도록 지시하는 단계입니다. CoTools는 이때 맥락 내 학습(ICL) 방식을 활용합니다. 즉, LLM에게 "이 도구(예: 계산기)는 이런 식으로(예: calculator.compute("123 * 456")) 호출하면 돼"라는 형식의 예시를 포함한 프롬프트를 동적으로 생성하여 제공합니다. LLM은 이 예시를 보고 실제 필요한 파라미터(이 경우 "123 * 456")를 채워 도구를 호출하게 됩니다.
- 특징: 모든 도구의 사용 예시를 LLM이 미리 학습할 필요 없이, ICL 능력을 활용하여 즉석에서 도구 사용법을 이해하고 실행합니다. 이는 새로운 도구에 대한 유연한 적응력을 가능하게 하는 핵심 요소입니다.

이 세 모듈의 협업을 통해 CoTools는 의사 결정(판단기)과 도구 선택(검색기) 과정을 실제 도구 실행(호출) 과정과 분리합니다. 그리고 이 과정에서 LLM의 숨겨진 상태와 ICL 능력을 영리하게 활용함으로써, 모델의 핵심 기능은 보존하면서도 마치 사람이 새로운 도구를 배우고 사용하듯 유연하고 확장 가능한 도구 활용 능력을 부여하는 것입니다.

CoTools의 성능: 실험 결과는 어땠을까?

이론적으로는 그럴싸한데, 실제 성능은 어떨까요? 연구진은 CoTools의 효과를 검증하기 위해 다양한 벤치마크 테스트를 수행했습니다. 주로 오픈 소스 모델인 'Llama 2-7B'에 CoTools 프레임워크를 적용하여 실험을 진행했습니다.

수학적 추론 (GSM8K-XL): 기본적인 계산 도구 사용 능력을 평가하는 이 벤치마크에서 CoTools를 적용한 Llama 2-7B 모델은 ChatGPT(GPT-3.5)와 비슷한 수준의 성능을 달성했습니다. 이는 CoTools가 LLM의 기본적인 추론 및 도구 사용 능력을 효과적으로 향상시킨다는 것을 보여줍니다.
복잡한 함수 사용 (FuncQA): 더 복잡한 함수 형태의 도구를 사용하는 능력을 평가하는 FuncQA 벤치마크에서는, 다른 최신 도구 학습 방식인 'ToolkenGPT'와 비교하여 비슷하거나 약간 더 나은 성능을 보였습니다. 이는 CoTools가 단순 계산뿐 아니라 더 복잡한 도구 활용 시나리오에서도 경쟁력이 있음을 시사합니다.
지식 기반 질의응답 (KBQA): 무려 1836개의 다양한 도구가 포함된 데이터셋을 활용한 이 테스트에서 CoTools는 뛰어난 도구 선택 정확도를 보여주었습니다. 특히 주목할 점은, 이 데이터셋에는 모델이 학습 과정에서 전혀 본 적 없는 837개의 새로운 도구가 포함되어 있었음에도 불구하고 CoTools가 이를 효과적으로 식별하고 활용했다는 사실입니다. 이는 CoTools의 핵심 목표인 '처음 보는 도구 활용 능력'을 성공적으로 입증한 결과라고 할 수 있습니다.

이러한 실험 결과들은 CoTools가 LLM의 도구 사용 능력을 미세조정 없이도 효과적으로 향상시킬 수 있으며, 특히 새롭고 다양한 도구에 대한 적응력 측면에서 기존 방식보다 뛰어난 잠재력을 가지고 있음을 보여줍니다.

CoTools의 장점과 가능성, 그리고 남은 과제

CoTools 프레임워크는 AI 에이전트 개발에 다음과 같은 매력적인 장점과 가능성을 제시합니다.

뛰어난 유연성과 확장성: 새로운 도구가 등장하더라도 LLM 전체를 미세조정할 필요 없이, 도구 검색기에게 해당 도구의 정보(설명, API 명세 등)만 알려주면 LLM이 이를 활용할 수 있게 됩니다. 이는 AI 에이전트가 끊임없이 변화하는 외부 환경과 도구 생태계에 훨씬 민첩하게 적응할 수 있음을 의미합니다.
LLM 핵심 능력 보존: 모델 자체를 '동결'하기 때문에 LLM이 가진 고유의 강력한 언어 이해 및 추론 능력이 손상될 위험이 없습니다.
개발 효율성 증대: 모델 학습 비용과 시간을 크게 절약할 수 있어, 개발자들이 더 빠르고 효율적으로 AI 에이전트를 구축하고 배포할 수 있습니다. 특히 '모델 컨텍스트 프로토콜(MCP)'과 같은 에이전트 통신 표준과 결합하면 외부 도구 통합이 더욱 용이해질 것으로 기대됩니다.
정확하고 신뢰성 있는 도구 선택: LLM의 숨겨진 상태를 통해 얻는 '의미론적 이해'를 바탕으로 도구를 선택하기 때문에, 복잡하고 미묘한 사용자 요청에 대해서도 더 정확하고 신뢰할 수 있는 도구 활용이 가능해집니다. 과학 연구, 데이터 분석 등 전문적인 영역에서의 AI 에이전트 활용 가능성을 높여줍니다.

물론 CoTools 역시 아직 초기 연구 단계이며 몇 가지 고려할 점이 있습니다.

오픈 소스 모델 제한: CoTools는 LLM의 '숨겨진 상태' 정보에 접근해야 하므로, 내부 구조가 공개되지 않은 'GPT-4o'나 'Claude' 같은 폐쇄형(closed-source) 모델에는 현재 적용할 수 없습니다. 'Llama', 'Mistral'과 같은 오픈 소스 LLM 환경에서만 활용 가능하다는 제약이 있습니다.
실용화를 위한 추가 연구: 실험실 수준의 성공을 넘어 실제 환경에 안정적으로 적용하기 위해서는, 특화 모듈(판단기, 검색기) 학습 비용과 범용적인 도구 호출 능력 사이의 최적의 균형점을 찾는 등 추가적인 연구와 엔지니어링 노력이 필요합니다.

AI 에이전트의 미래를 여는 열쇠, CoTools

AI 에이전트가 우리의 일상과 업무 환경에 깊숙이 들어오기 위해서는, AI가 마치 사람처럼 다양한 도구를 유연하고 효과적으로 활용하는 능력이 필수적입니다. '도구의 사슬(CoTools)' 프레임워크는 기존 미세조정 방식의 한계를 극복하고, LLM이 처음 보는 도구까지도 맥락에 맞게 활용할 수 있는 새로운 가능성을 제시했다는 점에서 매우 중요한 진일보라고 할 수 있습니다.

비록 아직 넘어야 할 과제들이 남아있지만, CoTools와 같은 혁신적인 접근 방식들은 AI 에이전트가 더욱 똑똑해지고 유용해지는 미래를 앞당기는 중요한 열쇠가 될 것입니다. 앞으로 AI 에이전트가 얼마나 더 발전하여 우리의 삶을 변화시킬지 기대되지 않으신가요? CoTools의 후속 연구와 실제 적용 사례들을 계속해서 주목해 볼 필요가 있겠습니다!

GitHub Chain-of-Tools 바로가기

참고문헌 (References):

Qin, C., Li, Z., Zhang, Z., Wang, Z., Wang, S., & Chen, X. (2024). Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models. arXiv preprint arXiv:2405.11346. (CoTools 원 논문)
McCloskey, M., & Cohen, N. J. (1989). Catastrophic interference in connectionist networks: The sequential learning problem. Psychology of learning and motivation, 24, 109-165. (신경망에서의 파국적 망각 현상에 대한 고전적 연구)
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901. (GPT-3 논문, Few-shot 학습 및 ICL 능력 제시)
Mialon, G., Dessì, R., Lomeli, M., Nalmpantis, C., Pasunuru, R., Raileanu, R., ... & Schick, T. (2023). Augmented language models: a survey. Transactions on Machine Learning Research. (LLM의 외부 도구 활용 연구 동향 서베이)
Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Zettlemoyer, L., Cancedda, N., & Scialom, T. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv preprint arXiv:2302.04761. (LLM이 스스로 도구 사용법을 학습하는 Toolformer 연구)