Traditional RAG 에서 AgenticRAG 로 넘어가기 위한 공부

Model 과 Agent 차이부터 효율적인 Agent 활용을 위한 Tools 구성 및 아키텍쳐 구현 가이드

정이태

Jan 05, 2025

Contents

0 - 왜 이 글을 작성하기 시작했는가?1 - AgenticRAG 를 위한 개괄 2 - 효율적으로 Agent를 활용하기 위한 아키텍쳐 그리고 툴 사용시 고려해야할 것들 3 - 마치며 Reference

0 - 왜 이 글을 작성하기 시작했는가?

2025 트렌드가 AgenticRAG 라곤 하는데, 왜 트렌드라 이야기가 돌고 있는지에 대한 근본적인 물음을 저 자신에게 해봤는데, 명확한 답변을 하지 못했습니다.또한, AI Chip 업계에서 현재 LLM 학습에서 추론으로 트렌드가 바뀜을 팟캐스트들 , 블로그들 등을 통해 접하면서 이 두 트렌드가 분명 연관성이 있을거란 생각 그리고 호기심을 가지고 AgenticRAG 그리고 LLM 추론에 대해 스터디해봤습니다.

AgenticRAG 리소스는 두 가지를 참고했습니다.

Antrophic 에서 발췌한 building effective agents 백서

Google 에서 발췌한 Agents 백서

1 - AgenticRAG 를 위한 개괄

1은 10가지 콘텐츠로 이루어져 있습니다.각 콘텐츠마다 아키텍쳐 브리핑, 문제를 해결하기 위해 이 아키텍쳐 언제 유용한지 그리고 사례들을 알려줍니다. 9page 로 되어 있는데요. 굉장히 짧지만, 핵심만 담아놓았기에 저와 유사하게 AgenticRAG에 대해 오버뷰를 알고 싶으신 분들은 한 번 훑어보셔도 될만큼 부담없는 양입니다.

1에서 다룬 아키텍쳐들은 다음 10가지로 이루어져 있는데요.

Building block : Augmented LLM

Retrieval, Tools, Memory

Workflow : Prompt Chaining

Filtering , branch

Workflow : Routing

question complexity 에 따라 모델들을 나누어 활용할 수 있는 테크닉.

Workflow : Parallelization

multiple perspective , 각 LLM 마다 다르게 학습된 데이터들을 수합하는 테크닉.
Sectioning , Voting 이란 개념이 신선했음.

Sectioning 과 guardrail 이야기. 단일 모델의 한계점인 스크리닝을 다양한 관점으로 넓혀서 더욱 면밀한 가드레일 구현을 위한 것.

Workflow : Orchestrator - workers

Parallelization과 차이점 인지.

Central LLM이 여러개의 subtask 로 나누어주고 이를 각각 다른 LLM들에게 부여하고 종합하는 것.
처음 central llm 설계시 반영한 도메인 이해도에 따라 그 성능이 비례할 것.

Workflow : Evaluator - optimizer

LLM 마다 각기 다른 Evaluation 기준을 가지고 대답의 결과물들을 평가하며 서로 의견을 교류 그리고 답변 도출.
turning 의 제한 , Evaluator threshold 등 pass / non-pass 에 대해 LLM이 이해할 수 있게 잘 유도해주어야함.

Agents

Open ended problem 에 적합함. 답이 정해져 있지 않는 질의가 들어올 시 내/외부 정보를 활용해 최적의 답안을 도출함.

위 정보들은 아까 말씀드렸듯이, 간단히 살펴보기엔 적합하나 깊이는 얕습니다. 예를 들어, 구체적으로 Workflow Orchestrator -workers 같은 부분에서는 subtask를 나누기 위한 state 관리는 어떻게 할 것이며, message 마다 thread 배분을 어떻게 해주는지 등의 내용은 다루질 않습니다. 또한, Agent가 외부 지식을 가져와서 활용한다라고 이야기를 했는데, 어떻게 이를 따로 디자인해서 어느 Agent에게 배분할지의 내용들을 다루진 않습니다.

2 - 효율적으로 Agent를 활용하기 위한 아키텍쳐 그리고 툴 사용시 고려해야할 것들

2는 이제 본격적으로 추론을 위해 구체적으로 어떻게 아키텍쳐를 설계하며 어떤 Tool 들을 사용해야하는지 이야기합니다. 저는 여기에서 그간 Data stores 관점으로만 RAG 를 접근했었는데, Extensions 와 Function Calling 를 추가로 언급합니다. Function Calling 은 알고 있었는데, 이를 실행할 때 각각 Agent-side , Client-side 관점으로 분리를 해두었다는게 센세이션했습니다

내용 서두엔 모델과 에이전트의 차이부터 언급합니다. 우선 모델과 에이전트의 차이는 다음 두 가지로 저는 이해했어요. 1.외부 지식 최신화 2. 세션 히스토리 보관 및 답변시 활용. 결국, 학습할 데이터가 고갈되고 있으니 이에 따라 외부 특정 지식 저장소로부터 데이터를 가져와 최신화를 하고 그 최신화된 데이터와 유저의 세션 데이터들을 매칭해주며 추론합니다. 결국, pre-trained model weight 를 최대한 활용한다는 거죠.

이에 따라 Recency 유지를 위한 데이터량이 방대해지고 그에 따라 메모리 & KV cache 니즈가 높아지고 있음을 옅볼수가 있습니다.그럼 구체적으로 어떻게 모델이 추론할까요? 얼마전에 오픈한 OpenAI o3 모델이 화두인데요. 공식 홈페이지의 문구를 인용한 것을 기반으로 이야기해보겠습니다.

We used deliberative alignment to align OpenAI’s o-series models, enabling them to use chain-of-thought (CoT) reasoning to reflect on user prompts, identify relevant text from OpenAI’s internal policies, and draft safer responses. Our approach achieves highly precise adherence to OpenAI’s safety policies, and without requiring human-labeled CoTs or answers. We find that o1 dramatically outperforms GPT-4o and other state-of-the art LLMs across a range of internal and external safety benchmarks, and saturates performance on many challenging datasets.

saturates performance , safety , reasoning to reflect on user prompt 3가지 키워드를 집중해서 보시면 좋을거 같아요. 결국 여러 챌린징들을 겪었고, 이를 개선하기 위해 Reasoning 방식들 특히 CoT를 활용했다. 활용해서 성능 향상을 확인했고 추가로 safer response 할 수 있게 되었다. 가 주 맥락입니다.

에이전트 이야기하다가 뜬금없이 왜 ChatGPT reasoning 이야기가 나왔는지 의아해하실수도 있는데요. 위 인용 문구에 적혀있는 reasoning to reflect on user prompt 가 결국 AI inference 영역의 prefilling , decode/generation 과정에 필요한 재료가 될터이고, 이 prompt 의 길이 length 가 길어질수록 결국 추론에 필요한 리소스(KV cache & model parameter) 가 선형적으로 증가함을 유추할 수 있습니다.

따라서, 이를 위해 AI chip 회사들은 크게 두 갈림길로 나뉜다고 할 수 있는데요. LLM 학습 혹은 추론 갈림길입니다. 이 부분에 대해서는 레퍼런스 영상의 AI pre-training scaling challenges , If pretraining is dead, why bigger clusters? , Pre-training and inference-time reasoning 에서 잘 다루었으니, 영상을 참조하시는걸 추천드립니다. chinchilla scaling laws 를 언급하며 이야기합니다.

다시 돌아와서, Agent의 핵심 기능인 Extension 과 Function Calling을 잠시 이야기 해보겠습니다. 둘 간의 차이를 간단하게 말해보면, 외부 지식들을 가져올 때 Developer(개발자)가 Human-in-the-loop 와 유사하게 어느정도 개입을 할 지 아닐지의 여부라고 봐주시면 되겠습니다.

function calling 은 개발자에게 데이터 흐름과 시스템 실행을 정밀하게 제어할 수 있는 명확한 프레임워크를 제공합니다. 이를 통해 중요한 입력을 생성하는 에이전트/모델을 효과적으로 활용할 수 있습니다. 개발자는 애플리케이션 아키텍처에 따라 외부 데이터를 반환하여 에이전트를 계속 참여시킬지, 혹은 제외할지를 선택할 수 있습니다. Extension은 반대로 에이전트에게 자율성을 부여하는거죠.

백서 내용을 요약해보면 다음과 같습니다. 에이전트의 핵심은 도구 활용인데, 이 도구를 3가지로 나누어 각각 어떻게 활용하는지 client side , agent side 로 잘 설명되어 있습니다.

1.에이전트는 실시간 정보에 접근하고, 실제 행동을 제안하며, 복잡한 작업을 계획 및 실행하는 도구를 활용하여 언어 모델의 기능을 확장합니다. 에이전트는 하나 이상의 언어 모델을 사용해 상태 전환을 결정하고, 외부 도구를 활용해 언어 모델 단독으로는 수행하기 어려운 복잡한 작업을 완료할 수 있습니다.

2.에이전트 운영의 핵심은 인지 아키텍처인 오케스트레이션 레이어로, 이는 추론, 계획, 의사결정 등을 구조화하고 행동을 안내합니다. ReAct, Chain-of-Thought, Tree-of-Thoughts와 같은 다양한 추론 기법이 오케스트레이션 레이어에서 정보를 수집하고, 내부적으로 추론하며, 정보에 입각한 결정을 내릴 수 있도록 돕습니다.

3.도구(Extensions, Functions, Data Stores)는 에이전트가 외부 시스템과 상호작용하고, 훈련 데이터 외부의 지식을 활용할 수 있도록 하는 핵심 요소입니다. 확장은 에이전트와 외부 API를 연결해 실시간 정보 검색 및 API 호출을 가능하게 합니다. Functions는 개발자가 더 세밀하게 제어할 수 있도록 하고, 에이전트가 생성한 매개변수를 클라이언트 측에서 실행하게 합니다. Data Stores는 에이전트가 구조화된 데이터나 비구조화된 데이터에 접근하도록 하여 데이터 기반 애플리케이션을 가능하게 합니다.

Data stores 뿐만아니라, Function calling 그리고 Extensions 를 백서 형태로 작성되어 있다보니, 기존 RAG 에서 AgenticRAG 로 확장하기 위해 이론적인 공부가 필요하신 분들 많은 도움이 될 거 같네요.

3 - 마치며

위 두 리소스를 보고나니 AgenticRAG 의 핵심인 Tools 들에 대해 알게 되었네요. 왜 AgenticRAG 가 대두되고 있으며 그 필요성을 빅테크 업체에서 이야기하고 있는지에 대해 깨닫게 된 좋은 스터디 였던 것 같습니다. 아마 이 글을 보신분들도 위 리소스를 보신다면, 이제 AgenticRAG 가 무슨 문제를 해결하기 위해 활용되고 있는 수단인지를 알 수 있지않을까 싶네요.

추가로, 시장에 AgenticRAG 를 위한 orchestration 툴들이 우후죽순 나오고 있는 상황인데요. 저는 늘 어떤 툴이 좋은지 비교만 간간이 하고 있었는데, 이젠 툴들의 기능보다 핵심인 Extension , Function Calling 그리고 Data Store 기반하여 선정할 수 있기 때문에 저만의 선정 기준이 생겼다고 할 수 있겠습니다. 근본적인 원리를 이해했으니, 적용하는데 큰 문제는 없을거 같아서 든든하네요.

또한, AI chip 시장에서 왜 추론에 집중하고 있는지 궁금하셨던분들 또한 연관성을 파악하여 성투? 하시길 기원합니다...! 개인적으로 추천드리는 reference 리딩 순서는 1. LLM inference 원리 이해 2. antrophic agent 백서 3. Google Agent 4. ChatGPT reasoning 5. AI chip 영상입니다. 아마 5가지 레퍼런스를 모두 보고 나신후엔, 여러분들만의 아하 모먼트가 생기지 않을까 싶네요. 꼭 시간내어 살펴보시기를 추천드리는 바입니다. 그만큼 좋은 리소스들이라 생각하네요.

Reference

Antrophic 에서 발췌한 building effective agents 백서https://www.anthropic.com/research/building-effective-agents

Google 에서 발췌한 Agents 백서 2 - https://media.licdn.com/dms/document/media/v2/D561FAQH8tt1cvunj0w/feedshare-document-pdf-analyzed/B56ZQq.TtsG8AY-/0/1735887787265?e=1736985600&v=beta&t=pLuArcKyUcxE9B1Her1QWfMHF_UxZL9Q-Y0JTDuSn38

AI chip 영상 1. 월텍남 ,엔비디아가 밀린다..? 제가 확실히 말씀드리겠습니다. - https://youtu.be/7rLJ4WOCrE0?si=0cG8ffJ2B8mKHO0u

AI chip 영상 2. AI Semiconductor Landscape feat. Dylan Patel | BG2 w/ Bill Gurley & Brad Gerstner , Bg2 Pod , https://www.youtube.com/watch?v=QVcSBHhcFbg&t=1817s

AI 추론 영상(강력 추천) - Mastering LLM Inference Optimization From Theory to Cost Effective Deployment: Mark Moyou , AI Engineer , https://youtu.be/9tvJ_GYJA-o?si=N1QO0U0TiuoCCy6S

ChatGPT reasoning (CoT) - Deliberative alignment: reasoning enables safer language models , openai , https://openai.com/index/deliberative-alignment/

See more posts

Traditional RAG 에서 AgenticRAG 로 넘어가기 위한 공부

0 - 왜 이 글을 작성하기 시작했는가?

1 - AgenticRAG 를 위한 개괄

2 - 효율적으로 Agent를 활용하기 위한 아키텍쳐 그리고 툴 사용시 고려해야할 것들

3 - 마치며

Reference

More articles

왜 우리는 GraphRAG를 하다 포기하는가? 그리고 요즘 근황..

dbt와 그래프 엔지니어링 그리고 비즈니스 온톨로지?

손에 흙 묻히는 일

테디노트님 네트워킹 파티 참여 후기