본문 바로가기
ML & DL/논문리뷰

HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction

by 공부하는 무니 2024. 11. 24.
반응형

원문: https://arxiv.org/pdf/2408.04948v1

 

1. 하이브리드 RAG의 필요성과 금융 정보 추출

  • 금융 애플리케이션에서 비정형 텍스트 데이터의 복잡한 정보를 추출하고 해석하는 것은 LLMs에게 여전히 큰 도전 과제이다 . 
  • 도메인별 용어와 복잡한 문서 형식으로 인해 전통적인 Vector RAG기법은 금융 문서에서 정보 추출에 한계가 있다 . 
  • 하이브리드 RAG는 Knowledge Graphs 기반의 Graph RAG와 Vector RAG기법을 결합하여 정확하고 맥락에 맞는 답변을 생성하는 새로운 접근 방식이다 . 
  • 실험 결과, 하이브리드 RAG는 전통적인 Vector RAG와 Graph RAG보다 정보 검색 정확성과 답변 생성에서 더 뛰어나다 . 
  • 제안된 기술은 금융 분야를 넘어 다양한 영역에 적용되는 잠재력을 지니고 있다.

1-1. Introduction to HybridRAG and its Applications

  • HybridRAG는 Knowledge Graphs 기반의 RAG 기법(GraphRAG)과 벡터 데이터베이스를 활용한 RAG 기술(VectorRAG)을 결합한 새로운 접근 방식이다. 이 방식은 금융 문서에서 정보 추출을 향상시키며, 문맥에 맞고 정확한 대답을 생성할 수 있다 . 
  • 실험 결과에 따르면, HybridRAG는 벡터 데이터베이스와 지식 그래프 양쪽에서 정보를 가져와 전통적인 VectorRAG와 GraphRAG보다 더 나은 성능을 보인다 . 
  • 이 기술은 금융 도메인을 넘어 다른 분야에서도 활용될 수 있는 잠재력을 지닌다 
1-2. Challenges in Financial Document Processing
  • 금융 애널리스트에게 뉴스 기사, 수익 보고서 등의 비구조적 데이터에서 정보를 추출하고 분석하는 것은 중요하나, 전통적인 데이터 분석 방법은 이를 효과적으로 처리하지 못한다 . 
  • LLM(대형 언어 모델)은 방대한 양의 텍스트 데이터를 처리하고 이해하는 데 강력한 도구로 등장하였으며, 주로 감정 분석, 시장 추세 예측, 자동 보고서 생성 등에 활용된다 . 
  • 강력한 정보 추출 시스템은 금융 애널리스트가 신속하게 관련 데이터를 수집하고 시장 추세를 파악하여 더 나은 투자 전략과 위험 관리를 가능하게 한다 . 
  • 그러나 많은 금융 문서가 도메인 특유의 용어, 여러 데이터 형식, 고유한 맥락적 관계를 포함하고 있어 일반적으로 훈련된 LLM에서는 잘 처리하기 어려운 문제가 있다 . 

2. 하이브리드 RAG의 필요성과 전통적 RAG의 한계

  • 다양한 Retrieval-Augmented Generation (RAG) 기술들은 LLM의 성능을 향상하기 위한 목적으로 사용된다 . 
  • Vector RAG는 관련 텍스트 정보를 검색하여 자연어 처리작업에서 의미 있고 일관된 응답을 생성하는 데 중점을 둔다 . 
  • 그러나 금융 문서에서 전통적인 RAG접근법은 텍스트가 균일한 길이를 가진다고 가정하는 단락 수준의 청킹 기법을 사용함으로써 계층적 성격을 무시하고 중요한 문맥 정보를 잃을 수 있다 . 
  • 분석을 위해 LLM이 불러온 문맥의 품질이 불일정해져 부정확하고 불완전한 분석으로 이어질 수 있다 . 
  • 이로 인해 보다 정교한 방법이 필요해지며, 이를 통해 금융 문서의 세부적이고 분야-specific한 정보를 좀 더 신뢰성 있고 정확하게 통합하고 처리할 수 있어야 한다 . 
2-1. LLM 및 RAG 기술을 활용한 정보 추출의 도전과제
  • VectorRAG은 벡터 데이터베이스를 기반으로 한 전통적인 RAG 기법으로, 자연어 처리(NLP) 작업에서 관련 텍스트 정보를 검색하여 생성 작업을 지원한다 . 
  • These 기법은 관련 문서에서 문맥을 검색하여 의미 있는 응답을 생성하는 데 탁월하지만, 독립적인 솔루션으로 금융 문서에서 중요한 도전에 직면한다 . 
  • 예를 들어, 기존 RAG 시스템은 단락 수준의 분할 기법을 사용하여 문서의 텍스트가 균일하다고 가정하고, 이는 정확한 분석을 위해 중요한 문맥 정보를 놓칠 수 있다 . 
  •  
2-2. 금융 문서에서의 LLM 기반 분석의 한계
  • 금융 문서는 계층적 구조를 가지고 있으며, 이로 인해 기존 LLM 검색 방법에서는 이러한 구조를 효과적으로 처리하지 못하고 있다 .
  • 방대한 이질적 자료에서 LLM이 검색하는 문맥의 질이 일관되지 않을 수 있고, 이는 부정확하고 불완전한 분석을 초래한다 . 
  • 이러한 문제들은 금융 문서에서 발견되는 세부적이고 도메인 특정 정보를 효과적으로 통합하고 처리할 수 있는 더 정교한 방법의 필요성을 보여준다 . 
 

3.  지식 그래프와 금융 데이터의 통합

  • 지식 그래프(KG)는 데이터 관리및 분석에 중요한 기술로, 금융 문서를 엔티티와 그 관계의 삼중항으로 나타내어 보다 체계적으로 이해하는 방법을 제공한다 . 
  • KG는 검색 엔진, 추천 시스템, 생물 의학 연구 등 다양한 분야에서 채택되어 있으며, 효율적인 질의와 추론을 가능하게 한다 . 
  • 금융 서비스 산업에서는 KG가 다양한 금융 데이터소스를 통합하여 데이터 통합, 위험 관리 및 예측 분석을 강화하는 데 유용하다는 것을 인식하고 있다 . 
  • 금융 KG는 시장 데이터, 금융 보고서 및 뉴스 기사 등을 통합하여 금융 엔티티와 그 관계의 포괄적인 관점을 제공하므로, 분석의 정확성과 포괄성을 개선할 수 있다 . 
  • 그러나 대량의 금융 데이터를 처리하고 금융 시장의 동적 특성을 반영하기 위해 지속적으로 KG를 업데이트하는 것은 도전적이고 자원이 많이 소모된다 . 
3-1. 지식 그래프와 금융 문서
  • 지식 그래프(KGs)는 금융 문서를 트리플 형식의 엔티티와 관계로 표현하여 다양한 관점에서 바라보는 데 도움을 준다. 
  • 지식 그래프는 엔티티와 관계를 통해 지식을 구조화하여 데이터 관리 및 분석에 필수적인 기술로 자리 잡았다. 
  • 이 기술은 검색 엔진, 추천 시스템, 생의학 연구 등 다양한 분야에서 활용되고 있다. 
3-2. 금융 서비스에서의 지식 그래프의 잠재력
  • 금융 서비스 산업은 이종 데이터 소스의 데이터 통합, 위험 관리, 예측 분석에서 지식 그래프의 잠재력을 인식했다. 
  • 금융 지식 그래프는 시장 데이터, 금융 보고서 및 뉴스 기사를 통합하여 금융 엔티티와 그 관계의 종합적인 이미지를 제공한다. 
  • 이러한 통합된 이미지는 금융 분석의 정확성과 포괄성을 높이고, 숨겨진 관계를 식별함으로써 위험 관리에 기여한다. 
  • 그러나 대량의 금융 데이터를 처리하고, 금융 시장의 동적인 성격을 반영하기 위해 지식 그래프를 지속적으로 업데이트하는 것은 도전적이고 자원 집약적인 작업이다. 
3-3. HybridRAG의 제안
  • GraphRAG은 지식 그래프를 활용하여 NLP 작업의 성능을 향상시키는 새로운 접근 방식으로, 특히 Q&A 시스템에 효과적이다.
  • GraphRAG는 금융 문서에서 추출된 구조화된 정보를 바탕으로 더 정확하고 문맥에 맞는 응답 생성을 가능케 한다. 
  • 그러나 추상적인 Q&A 작업이나 질문에 명시적인 엔티티가 언급되지 않았을 때는 일반적으로 성능이 저하된다.
  • 이러한 문제를 보완하기 위해, VectorRAG와 GraphRAG의 결합인 HybridRAG가 제안되었다. 

4.  HybridRAG의 혁신적인 접근 방식 요약

  • HybridRAG는 Vector RAG와 Graph RAG의 하이브리드 접근 방식을 제안하고, 이를 통해 금융 문서에서 Q&A 시스템의 분석 및 활용을 개선한다 . 
  • Vector RAG는 정보를 벡터 데이터베이스로부터 검색하여 대형 언어 모델(LLM)의 성능을 향상시키는 데 중점을 둔다 . 
  • Graph RAG는 지식 그래프(KG)를 사용하여 구조화된 관계 정보를 제공하며, LLM의 응답 생성에 관련된 문맥을 풍부하게 한다 . 
  • 두 시스템을 결합한 HybridRAG는 두 접근 방식의 강점을 활용하여 더 정교하고 관계 중심의 문맥 데이터를 제공, 최종 응답의 정확성과 관련성을 높인다 . 
  • 이 연구에서 사용된 새로운 참 진리 Q&A 데이터셋은 인도의 주식 시장 지수인 Nifty-50에 포함된 회사들의 재무 보고서에서 추출되었다 .
4.1. HybridRAG: Retrieval Augmented Generation 기술의 통합
  • HybridRAG는 정보 추출성능을 향상시키기 위해 지식 그래프와 벡터 검색기술을 결합한 접근 방식이다. 
  • 이 기술은 특히 금융 문서에서 Q&A 시스템의 정확도와 관련성을 크게 향상시킨다. 
  • 전통적인 정보 분석의 한계를 뛰어넘도록 설계되어 더 나은 예측 및 분석을 가능하게 한다. 
  • HybridRAG의 결과는 금융 분야를 넘어 다른 분야에도 적용될 가능성이 높다. 
  • 이 연구는 효율적인 투자 결정을 위한 기초적 통계 자료를 제공하는 데 중요한 기여를 한다. 
4.2. VectorRAG의 메커니즘과 HybridRAG 접근 방식
  • VectorRAG는 비구조적 금융 문서에서 복잡한 정보를 추출하고 해석하는 데 있어 대형 언어 모델(LLM)이 직면하는 문제를 다루고자 한다 . 
  • 이 방식은 도메인 특화 용어와 문서의 복잡한 형식 때문에, 정보 검색에 벡터 데이터베이스를 활용한다 . 
  • HybridRAG는 그래프 기반 RAG(Graph RAG)와 벡터 기반 RAG(Vector RAG)를 결합하여 금융 문서에서 Q&A 시스템의 성능을 향상시킨다 . 
  • HybridRAG는 벡터 데이터베이스와 지식 그래프에서 문맥을 모두 검색하여, 전통적인 Vector RAG와 Graph RAG보다 높은 검색 정확도와 답변 생성 능력을 보여준다 . 
  • 이는 금융 외의 분야에도 적용 가능성이 있는 접근 방식이다 . 
4.3. 금융 문서 분석을 위한 지식 그래프의 역할
  • 복잡한 데이터 형식 때문에 LLM은 금융 문서에서 의미 있는 통찰을 추출하기 어려우며, 이는 부정확한 예측과 분석으로 이어진다 . 
  • 전통적인 VectorRAG는 자연어 처리작업을 지원하기 위해 관련 문서를 검색하지만, 금융 문서에서는 한계가 있다 . 
  • 금융 문서의 계층적인 특성을 무시하여 문단 수준에서 텍스트를 나누는 기존 방법은 중요한 맥락 정보를 놓칠 수 있다 . 
  • 지식 그래프는 금융 문서를 엔티티와 관계의 집합으로 보는 접근을 제공하여 더 정확하고 포괄적인 분석을 가능하게 한다 . 
  • 금융 분야에서는 다양한 데이터 소스를 통합하여 위험 관리와 예측 분석을 개선하기 위해 지식 그래프의 잠재성을 인식하고 있다 . 
4.4. HybridRAG의 구현과 이점
  • GraphRAG지식 그래프(KGs)를 활용하여 금융 문서에서의 Q&A 시스템의 성능을 향상시키는 새로운 접근 방식이다 . 
  • Graph RAG는 구조화된 정보로부터 보다 정확하고 문맥을 반영한 응답 생성을 가능하게 하지만, 추상적인 Q&A 작업에서는 성능이 떨어진다 . 
  • HybridRAG는 Vector RAG와 Graph RAG를 결합하여 LLM에 대한 질의에 대해 외부 문서로부터 관련 정보를 검색하는 새로운 방법이다 . 
  • Vector RAG는 관련 텍스트 정보를 검색하여 NLP 작업을 향상시킨다 . 하지만, 긴 컨텍스트와 여러 문서에서의 검색 메커니즘의 효율성은 여전히 도전 과제로 남아 있다 . 
  • HybridRAG는 인도의 대표 지수인 Nifty-50에 포함된 회사들의 수익 발표 영업 성과를 기반으로 한 새로운 실제 Q&A 데이터셋을 활용한다 . 
4.5. VectorRAG와 지식 그래프의 통합 과정
  • 전통적인 VectorRAG는 외부 문서에서 정보를 검색하고, 이를 LLM의 내부 훈련 데이터와 결합하여 응답의 정확성과 문맥적 관련성을 향상시키는 방법이다 . 
  • 검색된 외부 문서는 LLM의 문맥 크기 제한으로 인해 여러 청크로 분할되어 임베딩 모델을 통해 벡터 데이터베이스에 저장된다 .
  • 벡터 데이터베이스에서 쿼리에 가장 관련 있는 청크를 식별하고 순위를 매긴 후, 상위 청크를 추출하여 생성 모델의 문맥으로 제공한다.
  • 생성 모델은 추출된 문맥을 기반으로 쿼리의 응답을 합성하며, 이를 통해 실시간 정보를 기존의 지식과 합쳐 맥락적으로 관련 있고 상세한 응답을 보장한다 . 
  • 지식 그래프는 현실 세계의 엔티티, 속성, 관계를 구조적으로 표현하며, 텍스트 데이터에서 엔티티 인식, 관계 추출 등을 통해 설계된다.
4.6. HybridRAG의 통합 및 평가 방법
  • HybridRAG는 Vector RAG와 Graph RAG라는 두 가지 방법론을 통합하여 문맥적 정보를 체계적으로 결합한다 .
  • Vector RAG는 유사성 기반의 광범위한 정보 검색을 제공하고, Graph RAG는 구조적이고 관계 풍부한 문맥 데이터를 제공한다 . 
  • 세 가지 접근법(Vector RAG, Graph RAG, HybridRAG)의 효과성을 비교 분석하여 반응의 질, 정확성, 포괄성에서의 향상을 평가한다 . 
  • 평가 지표로 포괄성, 다양성, 독창성, 직관성을 활용하여 제공된 질문에 대한 응답의 질을 평가한다 . 
  • 평가 지표는 최종 생성된 응답을 비교하지만 검색 및 생성 부분을 개별적으로 직접 평가하지는 않는다 . 
4.7. 기술 구현 및 데이터 처리 방법
  • 신뢰성 평가 지표StatementExtractionStatementVerification 단계로 구성된 측정 방법을 사용한다 . 
  • 답변 관련성 평가질문 생성임베딩을 통해 계산되고, 각 생성 질문과 원본 질문의 코사인 유사도를 기준으로 점수가 산정된다 . 
  • 문맥 정확도(Precision)와 회상율(Recall)은 검색된 문맥의 적절성을 평가하며, 공통적으로 높은 점수를 추구한다 . 
  • 연구에 사용된 데이터는 Nifty50 기업의 분기별 실적 보고서로 구성되며, 2023년 6월 말 기준 회계연도의 첫 분기를 대상으로 한다. 
  • 수집된 데이터는 다양한 산업 분야의 50개 기업에서 얻은 50개의 문서로 구성되며, 이는 금융 분석 및 질문-응답 시스템을 위한 기초 자료로 사용된다 . 

5. 하이브리드 RAG의 성과와 비교

  • HybridRAG는 Faithfulness에서 GraphRAG과 동일하게 0.96 점으로 우수한 성과를 냄 . 
  • 답변 관련성에서 HybridRAG는 0.96 점으로 가장 높은 성과를 보였으며, Vector RAG와 Graph RAG는 각각 0.91, 0.89 점이다 . 
  • 문맥 정밀도에서 Graph RAG가 0.96 점으로 가장 우수했으나, 문맥 재현율에서는 Vector RAG및 HybridRAG가 완벽한 1 점을 기록함 . 
  • HybridRAG는 문맥 통합의 독특한 접근 방식으로 포괄적인 정보 검색을 가능하게 하지만, 이는 문맥 정밀도에 약간의 영향을 미친다 .
  • 전반적인 평가에서 HybridRAG는 높은 품질의 답변과 포괄적인 문맥 검색을 균형 있게 유지하여 가장 유망한 접근 방식으로 평가된다.
5-1. RAG 파이프라인의 성능 평가
  • RAG의 검색 및 생성 부분을 세 가지 서로 다른 RAG 파이프라인을 통해 평가하였다 . 
  • VectorRAG, GraphRAG, HybridRAG 접근 방식의 성능에 두드러진 차이가 나타났다 . 
  • GraphRAGHybridRAG는 신뢰도 점수에서 우수한 성과를 보였으며, 각각 0.96으로 평가되었다. 반면 VectorRAG는 0.94에 그쳤다. 
  • 문맥 정확도는 GraphRAG가 0.96으로 가장 높았으며, VectorRAG는 0.84, HybridRAG는 0.79로 뒤이었다 . 
  • 전체적으로 GraphRAG는 VectorRAG보다 특히 신뢰성과 문맥 정확도에서 개선된 성능을 보여준다 . 
5-2. HybridRAG의 균형잡힌 성능
  • HybridRAG는 신뢰도와 답변 관련성에서 가장 뛰어난 성과를 보였으며, 높은 컨텍스트 리콜을 유지했다 . 
  • HybridRAG의 0.79로 관찰된 낮은 문맥 정확도는 VectorRAG와 GraphRAG의 방법을 결합한 독특한 접근법에 기인한다 .
  • 이러한 통합은 더 포괄적인 정보 검색을 가능하게 하지만, 그라운드 트루스와 정확히 일치하지 않을 수도 있는 추가 콘텐츠를 도입하여 문맥 정확도에 영향을 미친다 . 
  • 그럼에도 불구하고, HybridRAG의 신뢰성, 답변 관련성, 문맥 리콜에서의 우수한 성과는 그 효과를 명확히 보여준다 . 
5-3. HybridRAG의 평가와 비교
  • 종합적인 평가 지표를 고려할 때, HybridRAG는 고품질의 답변과 포괄적인 문맥 검색을 균형 잡아 가장 유망한 접근법으로 떠오른다. 
  • GraphRAG는 추출적 질문에서 VectorRAG보다 좋은 성능을 보이며, VectorRAG는 원시 데이터에 명시적으로 언급되지 않은 정보를 다룰 때 더 좋은 성과를 낸다 . 
  • GraphRAG는 질문에 명시적으로 언급된 엔티티가 없을 때 종종 질문에 올바르게 답하지 못하며, 이러한 한계를 HybridRAG가 잘 보완한다 . 
  • 그래프로 반환된 올바른 문맥이 없는 추출적 질문에서는 VectorRAG로 회귀하여 답변을 생성하고, VectorRAG가 올바른 문맥을 가져오지 못하는 경우에는 GraphRAG가 답변을 생성한다 . 

 

6. 결론 : HybridRAG 시스템의 발전과 응용

  • Retrieval Augmented Generation(RAG) 기술은 외부 문서에서 정보를 추출하고 LLM의 성능을 향상시키기 위해 개발된 방법이다 . 
  • 전통적인 RAG방법은 금융 문서와 같은 전문적인 도메인에 적용할 때 한계를 만난다 . 
  • HybridRAG는 지식 그래프와 벡터 기반 RAG를 통합하여 금융 문서에서 정보 추출의 정확도와 관련성을 크게 향상시킨다 . 
  • 이 연구는 HybridRAG시스템이 기존의 벡터 기반, KG 기반 방법들보다 정보의 신뢰성, 답변의 관련성, 문맥 회상에서 우수한 성능을 발휘함을 강조한다 . 
  • 향후 발전 방향으로 멀티모달 입력 처리, 실시간 데이터 스트림 통합 등의 기능을 추가하여 금융 환경에서의 유용성을 높이는 것이 포함된다 . 

 

반응형

댓글