📌 핵심 키워드: Multimodal RAG, 문서 이해, LLM, VLM, ColPali, Document AI, 검색 증강 생성

🚀 도입부: "AI가 두꺼운 책을 읽지 못한다고요?"
여러분, 한 번 상상해보세요. 1,000페이지가 넘는 재무보고서를 보면서 특정 수치를 찾아야 하는 상황을요. 사람이라면 목차를 보고, 원하는 챕터로 넘어가고, 눈으로 훑으면서 빠르게 원하는 정보를 찾아냅니다. 그런데 지금의 AI는 어떨까요?
GPT-4나 Claude 같은 최신 대형 언어 모델(LLM)도 사실 "컨텍스트 윈도우(Context Window)"라는 한계가 있습니다. 쉽게 말해, 한 번에 읽을 수 있는 글자 수가 정해져 있다는 뜻입니다. 128K~1M 토큰이라고 해도, 수십 MB짜리 PDF 문서 앞에서는 금방 "Context limit exceeded!(컨텍스트 한계 초과!)" 라는 에러가 납니다.
그렇다면 AI는 어떻게 이 한계를 극복할 수 있을까요? 바로 Retrieval-Augmented Generation (RAG, 검색 증강 생성)이 그 답입니다. 그리고 여기서 한 발 더 나아가, 텍스트뿐 아니라 표(Table), 차트(Chart), 이미지까지 동시에 이해하는 Multimodal RAG가 2024~2025년 AI 연구의 핵심 화두로 떠올랐습니다.
오늘은 MBZUAI, 알리바바, 칭화대 등 세계 최고 연구진이 공동 발표한 서베이 논문 "Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding"을 바탕으로, Multimodal RAG의 모든 것을 파헤쳐보겠습니다. 2025년 AI 엔지니어라면 반드시 알아야 할 내용이니, 끝까지 함께해주세요!
📖 1. RAG가 뭔지부터 짚고 가자 — 도서관 사서 비유
RAG를 가장 쉽게 이해하는 방법은 도서관 사서로 비유하는 것입니다.
여러분이 도서관에서 "최초의 컴퓨터 탄생에 관한 정보를 알려줘"라고 질문한다고 해보세요. 도서관에는 수만 권의 책이 있지만, 사서는 모든 책을 외우고 있지 않아도 됩니다. 대신 카탈로그(색인)를 보고, 관련 가능성이 높은 책 몇 권을 선택해서 여러분에게 건네줍니다. 여러분은 그 책 몇 권만 읽고 답을 찾으면 됩니다.
RAG도 똑같습니다.
- 색인(Index) 구축: 문서들을 미리 임베딩(수치 벡터)으로 변환해 저장
- 검색(Retrieval): 사용자 질문과 유사한 문서 조각(페이지, 단락)을 꺼냄
- 생성(Generation): 꺼낸 문서 조각을 바탕으로 LLM이 답변을 생성
여기서 "Multimodal"이 붙으면, 사서가 텍스트만 읽는 게 아니라 그래프도 보고, 표도 해석하고, 이미지도 분석하는 능력을 갖추는 것입니다. 이것이 바로 Multimodal RAG의 핵심입니다.
📐 수식으로 본 RAG의 기본 구조
좀 더 공식적으로 표현하자면, 문서 후보군 $D = \{d_i\}_{i=1}^N$이 있을 때, 쿼리 $q$에 대해 이미지 인코더와 텍스트 인코더를 통해 각각 임베딩을 구합니다.
이미지 기반 유사도는 다음과 같이 정의됩니다:
$$s_{img}(e_q, z_i) = \langle e_q^{text}, z_i^{img} \rangle$$
이미지와 텍스트를 동시에 활용하는 신뢰도 가중 점수 결합(Confidence-Weighted Score Fusion)은 아래와 같습니다:
$$s_{conf}(e_q, z_i) = \lambda_i \cdot s_{img}(e_q, z_i) + (1 - \lambda_i) \cdot s_{text}(e_q, z_i)$$
여기서 $\lambda_i \in [0,1]$은 이미지 신뢰도를 나타내며, $\lambda_i = 1$이면 순수 이미지 기반, $\lambda_i = 0$이면 순수 텍스트 기반 검색이 됩니다. 최종적으로 검색된 컨텍스트 $X$를 바탕으로 생성 모델이 응답을 생성합니다: $r = \mathcal{G}(q, X)$.
🗂️ 2. Multimodal RAG의 핵심 분류 체계 — 4가지 축
이 서베이 논문의 가장 큰 기여 중 하나는 Multimodal RAG를 4가지 핵심 축으로 체계적으로 분류한 것입니다. 하나씩 살펴보겠습니다.
① 도메인: 개방형(Open-Domain) vs 폐쇄형(Closed-Domain)
개방형 Multimodal RAG는 수천, 수만 개의 문서로 이루어진 대규모 지식 베이스에서 검색합니다. "스마트폰을 최초로 발명한 회사가 어디야?"처럼 여러 문서를 넘나드는 질문에 답할 수 있습니다. M3DocRAG(3,000개 이상의 문서, M3DocVQA 벤치마크)와 VDocRAG(206K 이미지의 OpenDocVQA 데이터셋)가 대표적인 사례입니다.
폐쇄형 Multimodal RAG는 단일 문서 내에서만 검색합니다. "Figure 9에서 GPT-4가 Gemini보다 얼마나 더 성능이 좋아?"처럼 특정 문서 내의 질문에 특화되어 있습니다. 컨텍스트 한계 문제와 환각(Hallucination) 위험을 줄이는 데 효과적입니다. SV-RAG, FRAG, CREAM이 이 방식을 따릅니다.
② 검색 모달리티: 이미지 vs 이미지+텍스트
이미지 기반 검색은 문서 페이지 전체를 이미지로 변환해 VLM(Vision-Language Model)의 시각 인코더로 임베딩합니다. OCR 없이도 레이아웃, 차트, 표 구조를 보존할 수 있다는 장점이 있습니다. ColPali(PaliGemma-3B + SigLIP 인코더), VisRAG가 대표 주자입니다.
이미지+텍스트 기반 검색(하이브리드)은 OCR로 추출한 텍스트와 이미지 특성을 함께 활용합니다. 세밀한 텍스트 정보 손실을 보완할 수 있지만 처리 비용이 높아집니다. VisDoMRAG, HM-RAG, ViDoRAG가 이 방식을 채택합니다.
③ 검색 세분도(Granularity): 페이지 수준 vs 요소 수준
초기 Multimodal RAG는 페이지 전체를 하나의 단위로 검색했습니다. 하지만 최신 연구는 페이지 내의 표, 차트, 이미지, 텍스트 블록 각각을 개별 검색 단위로 처리하는 요소 수준(Element-Level) 검색으로 발전하고 있습니다.
대표적으로, VRAG-RL은 강화학습(RL)을 활용해 특정 영역을 가이드하고, RegionRAG는 쿼리에 맞는 시각적 영역을 동적으로 그룹핑하여 검색 노이즈를 줄입니다.
④ 하이브리드 강화: 그래프 기반 + 에이전트 기반
가장 최신 트렌드는 RAG에 그래프 구조나 자율 에이전트를 결합하는 것입니다. 아래에서 상세히 다루겠습니다.
🕸️ 3. 그래프 기반 Multimodal RAG — 관계를 그려서 이해한다
일반 RAG가 "관련 있는 페이지 꺼내기"라면, 그래프 기반 RAG는 "페이지들 사이의 관계까지 파악해서 꺼내기"입니다.
예를 들어 논문에서 "Figure 3이 Table 2의 데이터를 시각화한 것"이라는 관계, "본문 5페이지의 결론이 부록 12페이지의 실험 결과를 참조한다"는 연결 — 이런 정보를 그래프의 노드(Node)와 엣지(Edge)로 명시적으로 표현하는 것이 그래프 기반 접근법입니다.
- HM-RAG: 그래프 데이터베이스를 활용해 구조적 관계를 포착하는 계층적 멀티에이전트 프레임워크
- mKG-RAG: 시각과 텍스트 간 엔티티를 정렬하는 멀티모달 지식 그래프를 명시적으로 구축
- RECON: 페이지 내 시각 관계와 페이지 간 엔티티 연결을 통합하는 전역 그래프 구성
- LILaC: 레이아웃 인식 컴포넌트 그래프에서 늦은 상호작용(Late Interaction)으로 멀티홉 추론 지원
🤖 4. 에이전트 기반 Multimodal RAG — AI가 스스로 전략을 짠다
에이전트 기반 RAG는 AI 스스로가 "어떻게 검색할지"를 계획하고 실행하는 시스템입니다. 마치 탐정이 사건을 해결하기 위해 단서를 능동적으로 수집하고, 가설을 세우고, 검증하는 것처럼요.
대표적인 시스템들을 살펴보면:
- ViDoRAG: 탐색(Exploration) → 요약(Summarization) → 반성(Reflection)의 반복 워크플로우
- HM-RAG: 쿼리 분해 에이전트 → 모달리티별 병렬 검색 에이전트 → 일관성 투표로 답변 통합하는 결정 에이전트
- Patho-AgenticRAG: 병리학 교재에서 텍스트-이미지 증거를 함께 검색하며 진단 환각을 줄이는 의료 특화 에이전트
- HEAR: VLM 기반 문서 파싱과 교차 모달 불일치 감지-수정을 반복하는 폐쇄 루프 에이전트
📊 5. 주요 벤치마크와 평가 지표 — 어떻게 성능을 측정하나?
Multimodal RAG의 성능 평가는 크게 검색 평가와 생성 평가 두 가지로 나뉩니다.
검색 평가 지표
- Recall@K: 상위 K개 결과 안에 정답 페이지가 얼마나 포함되는가
- MRR@K (Mean Reciprocal Rank): 첫 번째 정답 페이지의 순위를 강조하는 지표
- nDCG@K: 관련성 높은 항목이 상위에 올수록 보상하는 정규화 할인 누적 이득
생성 평가 지표
- Exact Match (EM): 예측이 정답과 완전히 일치하는 비율
- ANLS (Average Normalized Levenshtein Similarity): 편집 거리 기반의 부드러운 문자열 평가
- G-Acc (Generated Accuracy): 자유 형식의 긴 답변도 의미론적으로 평가할 수 있는 최신 지표
현재 대표적인 벤치마크를 규모로 살펴보면, OpenDocVQA는 206K 이미지, 약 206M 시각 토큰을 필요로 하며, M3DocVQA는 40K 페이지, 약 41M 시각 토큰을 요구합니다. 이는 기존 MLLM의 컨텍스트 한계(128K~1M)를 훨씬 초과하는 수준으로, 왜 Multimodal RAG가 반드시 필요한지를 단적으로 보여줍니다.
주요 성능 결과 (DocVQA 기준)
- FRAG (생성, ANLS): 87.4 — 현재 최고 수준
- MARA (생성, G-Acc): 84.64
- RegionRAG (검색, R@10): 99.4 — 검색 정확도 최상위권
- ColQwen2.5 (검색, nDCG@5): 63.6
🏭 6. 실제 산업 적용 사례 — 어디에 쓰이나?
Multimodal RAG는 이미 다양한 산업 현장에 적용되고 있습니다.
- 금융 분야: MultiFinRAG — 재무보고서의 텍스트, 표, 차트를 통합 모델링해 질문 응답 성능을 향상. FinRAGBench-V — 시각적 인용(Visual Citation)을 강조한 투명한 증거 추적 벤치마크
- 과학 연구: HiPerRAG — 수백만 편의 연구 논문에서 교차 모달 검색 및 추론 지원. CollEX — 멀티모달 과학 코퍼스의 인터랙티브 탐색 시스템
- 사회과학: Eurobarometer 기반 프레임워크 — 텍스트와 인포그래픽을 통합해 설문 데이터 해석력 향상
오픈소스 RAG 프레임워크도 빠르게 성장하고 있습니다. 2025년 12월 기준으로 RAGFlow는 GitHub 스타 약 70,300개, LlamaIndex는 46,000개, LightRAG는 26,600개를 기록했습니다. 이런 도구들이 산업 배포의 진입 장벽을 크게 낮추고 있습니다.
⚠️ 7. 한계와 미래 과제 — 아직 갈 길이 멀다
이 논문은 솔직하게 현재 Multimodal RAG의 한계도 지적합니다.
① OCR-Free vs OCR-Based의 딜레마
ColPali 같은 OCR-불필요(OCR-Free) 방식은 레이아웃과 시각 구조를 잘 포착하지만, 조밀한 텍스트나 정밀한 수치 정보(금융, 기술 문서)에서는 시각적 환각(Visual Hallucination)에 취약합니다. OCR 기반 방식은 반대로 텍스트 정확도는 높지만 레이아웃 의미를 잃습니다. 두 방법을 통합하는 단일 표현 체계가 아직 존재하지 않습니다.
② 벤치마크의 한계와 포화
DocVQA, InfoVQA 같은 기존 벤치마크에서 성능이 빠르게 포화되고 있습니다. 더 심각한 문제는 LLM 사전학습 데이터에 벤치마크 데이터가 포함되어 있을 가능성(데이터 오염, Data Contamination)이 있어 높은 점수가 실제 이해 능력이 아닌 암기를 반영할 수 있다는 점입니다.
③ 복잡성-성능 트레이드오프
그래프 기반, 에이전트 기반 시스템들은 구조가 복잡해질수록 성능 향상은 1~2% 수준에 그치는 반면, 계산 비용과 추론 지연(Latency)은 대폭 증가합니다. 실시간 산업 배포에는 여전히 높은 장벽이 있습니다.
④ 보안과 신뢰성
금융, 의료, 법률 분야에 Multimodal RAG가 도입되면서 보안 문제도 부각됩니다. 공격자는 적대적 이미지나 레이아웃 조작으로 검색 결과를 오염시키거나 잘못된 결론을 유도할 수 있습니다(지식 포이즈닝, Knowledge Poisoning). 검증 가능한 생성(Verifiable Generation)과 프라이버시 보존 검색(Privacy-Preserving Retrieval) 메커니즘이 시급합니다.
💡 마무리: 3줄 핵심 요약 & LIMI_Lab의 견해
📌 3줄 핵심 요약
- Multimodal RAG는 필수다: 수십~수백 MB 문서 앞에서 LLM의 컨텍스트 한계를 극복하는 현실적인 유일한 해법이며, 텍스트·표·차트·이미지를 통합 이해하는 방향으로 빠르게 진화하고 있습니다.
- 4가지 축을 기억하라: 도메인(개방/폐쇄) × 검색 모달리티(이미지/하이브리드) × 검색 세분도(페이지/요소) × 하이브리드 강화(그래프/에이전트) — 이 프레임워크로 어떤 Multimodal RAG 논문도 빠르게 분류할 수 있습니다.
- 아직 해결되지 않은 과제가 많다: OCR-Free 대 OCR-Based 딜레마, 벤치마크 포화 및 오염, 복잡성 대비 낮은 성능 향상, 보안 취약성 — 이 분야는 아직 초기 단계이며 연구 기회가 무궁무진합니다.
🔬 LIMI_Lab의 견해
이 서베이를 읽고 가장 인상 깊었던 것은 ColPali 계열의 OCR-Free 접근법과 그래프·에이전트 기반 하이브리드 방식의 공존입니다. 단순히 페이지를 이미지로 변환해 검색하는 ColPali의 우아함과, 문서 내 관계를 명시적으로 모델링하는 그래프 기반 접근법은 서로 상호보완적입니다. 개인적으로는 요소 수준(Element-Level) 검색 + 강화학습(RL) 기반 추론의 조합(VRAG-RL, MM-R5 방향)이 가장 유망한 연구 방향이라고 생각합니다. 2026년에는 이 분야에서 더 굵직한 breakthrough가 나올 것이라 기대됩니다. 함께 지켜봅시다! 🚀
🏷️ 태그 추천
#MultimodalRAG #RAG #문서이해 #LLM #VLM #ColPali #DocumentAI #검색증강생성 #AI논문리뷰 #딥러닝