반응형
원문: https://arxiv.org/pdf/2408.04948v1
1. 하이브리드 RAG의 필요성과 금융 정보 추출
- 금융 애플리케이션에서 비정형 텍스트 데이터의 복잡한 정보를 추출하고 해석하는 것은 LLMs에게 여전히 큰 도전 과제이다 .
- 도메인별 용어와 복잡한 문서 형식으로 인해 전통적인 Vector RAG기법은 금융 문서에서 정보 추출에 한계가 있다 .
- 하이브리드 RAG는 Knowledge Graphs 기반의 Graph RAG와 Vector RAG기법을 결합하여 정확하고 맥락에 맞는 답변을 생성하는 새로운 접근 방식이다 .
- 실험 결과, 하이브리드 RAG는 전통적인 Vector RAG와 Graph RAG보다 정보 검색 정확성과 답변 생성에서 더 뛰어나다 .
- 제안된 기술은 금융 분야를 넘어 다양한 영역에 적용되는 잠재력을 지니고 있다.
1-1. Introduction to HybridRAG and its Applications
- HybridRAG는 Knowledge Graphs 기반의 RAG 기법(GraphRAG)과 벡터 데이터베이스를 활용한 RAG 기술(VectorRAG)을 결합한 새로운 접근 방식이다. 이 방식은 금융 문서에서 정보 추출을 향상시키며, 문맥에 맞고 정확한 대답을 생성할 수 있다 .
- 실험 결과에 따르면, HybridRAG는 벡터 데이터베이스와 지식 그래프 양쪽에서 정보를 가져와 전통적인 VectorRAG와 GraphRAG보다 더 나은 성능을 보인다 .
- 이 기술은 금융 도메인을 넘어 다른 분야에서도 활용될 수 있는 잠재력을 지닌다
- 금융 애널리스트에게 뉴스 기사, 수익 보고서 등의 비구조적 데이터에서 정보를 추출하고 분석하는 것은 중요하나, 전통적인 데이터 분석 방법은 이를 효과적으로 처리하지 못한다 .
- LLM(대형 언어 모델)은 방대한 양의 텍스트 데이터를 처리하고 이해하는 데 강력한 도구로 등장하였으며, 주로 감정 분석, 시장 추세 예측, 자동 보고서 생성 등에 활용된다 .
- 강력한 정보 추출 시스템은 금융 애널리스트가 신속하게 관련 데이터를 수집하고 시장 추세를 파악하여 더 나은 투자 전략과 위험 관리를 가능하게 한다 .
- 그러나 많은 금융 문서가 도메인 특유의 용어, 여러 데이터 형식, 고유한 맥락적 관계를 포함하고 있어 일반적으로 훈련된 LLM에서는 잘 처리하기 어려운 문제가 있다 .
2. 하이브리드 RAG의 필요성과 전통적 RAG의 한계
- 다양한 Retrieval-Augmented Generation (RAG) 기술들은 LLM의 성능을 향상하기 위한 목적으로 사용된다 .
- Vector RAG는 관련 텍스트 정보를 검색하여 자연어 처리작업에서 의미 있고 일관된 응답을 생성하는 데 중점을 둔다 .
- 그러나 금융 문서에서 전통적인 RAG접근법은 텍스트가 균일한 길이를 가진다고 가정하는 단락 수준의 청킹 기법을 사용함으로써 계층적 성격을 무시하고 중요한 문맥 정보를 잃을 수 있다 .
- 분석을 위해 LLM이 불러온 문맥의 품질이 불일정해져 부정확하고 불완전한 분석으로 이어질 수 있다 .
- 이로 인해 보다 정교한 방법이 필요해지며, 이를 통해 금융 문서의 세부적이고 분야-specific한 정보를 좀 더 신뢰성 있고 정확하게 통합하고 처리할 수 있어야 한다 .
- VectorRAG은 벡터 데이터베이스를 기반으로 한 전통적인 RAG 기법으로, 자연어 처리(NLP) 작업에서 관련 텍스트 정보를 검색하여 생성 작업을 지원한다 .
- These 기법은 관련 문서에서 문맥을 검색하여 의미 있는 응답을 생성하는 데 탁월하지만, 독립적인 솔루션으로 금융 문서에서 중요한 도전에 직면한다 .
- 예를 들어, 기존 RAG 시스템은 단락 수준의 분할 기법을 사용하여 문서의 텍스트가 균일하다고 가정하고, 이는 정확한 분석을 위해 중요한 문맥 정보를 놓칠 수 있다 .
- 금융 문서는 계층적 구조를 가지고 있으며, 이로 인해 기존 LLM 검색 방법에서는 이러한 구조를 효과적으로 처리하지 못하고 있다 .
- 방대한 이질적 자료에서 LLM이 검색하는 문맥의 질이 일관되지 않을 수 있고, 이는 부정확하고 불완전한 분석을 초래한다 .
- 이러한 문제들은 금융 문서에서 발견되는 세부적이고 도메인 특정 정보를 효과적으로 통합하고 처리할 수 있는 더 정교한 방법의 필요성을 보여준다 .
3. 지식 그래프와 금융 데이터의 통합
- 지식 그래프(KG)는 데이터 관리및 분석에 중요한 기술로, 금융 문서를 엔티티와 그 관계의 삼중항으로 나타내어 보다 체계적으로 이해하는 방법을 제공한다 .
- KG는 검색 엔진, 추천 시스템, 생물 의학 연구 등 다양한 분야에서 채택되어 있으며, 효율적인 질의와 추론을 가능하게 한다 .
- 금융 서비스 산업에서는 KG가 다양한 금융 데이터소스를 통합하여 데이터 통합, 위험 관리 및 예측 분석을 강화하는 데 유용하다는 것을 인식하고 있다 .
- 금융 KG는 시장 데이터, 금융 보고서 및 뉴스 기사 등을 통합하여 금융 엔티티와 그 관계의 포괄적인 관점을 제공하므로, 분석의 정확성과 포괄성을 개선할 수 있다 .
- 그러나 대량의 금융 데이터를 처리하고 금융 시장의 동적 특성을 반영하기 위해 지속적으로 KG를 업데이트하는 것은 도전적이고 자원이 많이 소모된다 .
- 지식 그래프(KGs)는 금융 문서를 트리플 형식의 엔티티와 관계로 표현하여 다양한 관점에서 바라보는 데 도움을 준다.
- 지식 그래프는 엔티티와 관계를 통해 지식을 구조화하여 데이터 관리 및 분석에 필수적인 기술로 자리 잡았다.
- 이 기술은 검색 엔진, 추천 시스템, 생의학 연구 등 다양한 분야에서 활용되고 있다.
- 금융 서비스 산업은 이종 데이터 소스의 데이터 통합, 위험 관리, 예측 분석에서 지식 그래프의 잠재력을 인식했다.
- 금융 지식 그래프는 시장 데이터, 금융 보고서 및 뉴스 기사를 통합하여 금융 엔티티와 그 관계의 종합적인 이미지를 제공한다.
- 이러한 통합된 이미지는 금융 분석의 정확성과 포괄성을 높이고, 숨겨진 관계를 식별함으로써 위험 관리에 기여한다.
- 그러나 대량의 금융 데이터를 처리하고, 금융 시장의 동적인 성격을 반영하기 위해 지식 그래프를 지속적으로 업데이트하는 것은 도전적이고 자원 집약적인 작업이다.
- GraphRAG은 지식 그래프를 활용하여 NLP 작업의 성능을 향상시키는 새로운 접근 방식으로, 특히 Q&A 시스템에 효과적이다.
- GraphRAG는 금융 문서에서 추출된 구조화된 정보를 바탕으로 더 정확하고 문맥에 맞는 응답 생성을 가능케 한다.
- 그러나 추상적인 Q&A 작업이나 질문에 명시적인 엔티티가 언급되지 않았을 때는 일반적으로 성능이 저하된다.
- 이러한 문제를 보완하기 위해, VectorRAG와 GraphRAG의 결합인 HybridRAG가 제안되었다.
4. HybridRAG의 혁신적인 접근 방식 요약
- HybridRAG는 Vector RAG와 Graph RAG의 하이브리드 접근 방식을 제안하고, 이를 통해 금융 문서에서 Q&A 시스템의 분석 및 활용을 개선한다 .
- Vector RAG는 정보를 벡터 데이터베이스로부터 검색하여 대형 언어 모델(LLM)의 성능을 향상시키는 데 중점을 둔다 .
- Graph RAG는 지식 그래프(KG)를 사용하여 구조화된 관계 정보를 제공하며, LLM의 응답 생성에 관련된 문맥을 풍부하게 한다 .
- 두 시스템을 결합한 HybridRAG는 두 접근 방식의 강점을 활용하여 더 정교하고 관계 중심의 문맥 데이터를 제공, 최종 응답의 정확성과 관련성을 높인다 .
- 이 연구에서 사용된 새로운 참 진리 Q&A 데이터셋은 인도의 주식 시장 지수인 Nifty-50에 포함된 회사들의 재무 보고서에서 추출되었다 .
- HybridRAG는 정보 추출성능을 향상시키기 위해 지식 그래프와 벡터 검색기술을 결합한 접근 방식이다.
- 이 기술은 특히 금융 문서에서 Q&A 시스템의 정확도와 관련성을 크게 향상시킨다.
- 전통적인 정보 분석의 한계를 뛰어넘도록 설계되어 더 나은 예측 및 분석을 가능하게 한다.
- HybridRAG의 결과는 금융 분야를 넘어 다른 분야에도 적용될 가능성이 높다.
- 이 연구는 효율적인 투자 결정을 위한 기초적 통계 자료를 제공하는 데 중요한 기여를 한다.
- VectorRAG는 비구조적 금융 문서에서 복잡한 정보를 추출하고 해석하는 데 있어 대형 언어 모델(LLM)이 직면하는 문제를 다루고자 한다 .
- 이 방식은 도메인 특화 용어와 문서의 복잡한 형식 때문에, 정보 검색에 벡터 데이터베이스를 활용한다 .
- HybridRAG는 그래프 기반 RAG(Graph RAG)와 벡터 기반 RAG(Vector RAG)를 결합하여 금융 문서에서 Q&A 시스템의 성능을 향상시킨다 .
- HybridRAG는 벡터 데이터베이스와 지식 그래프에서 문맥을 모두 검색하여, 전통적인 Vector RAG와 Graph RAG보다 높은 검색 정확도와 답변 생성 능력을 보여준다 .
- 이는 금융 외의 분야에도 적용 가능성이 있는 접근 방식이다 .
- 복잡한 데이터 형식 때문에 LLM은 금융 문서에서 의미 있는 통찰을 추출하기 어려우며, 이는 부정확한 예측과 분석으로 이어진다 .
- 전통적인 VectorRAG는 자연어 처리작업을 지원하기 위해 관련 문서를 검색하지만, 금융 문서에서는 한계가 있다 .
- 금융 문서의 계층적인 특성을 무시하여 문단 수준에서 텍스트를 나누는 기존 방법은 중요한 맥락 정보를 놓칠 수 있다 .
- 지식 그래프는 금융 문서를 엔티티와 관계의 집합으로 보는 접근을 제공하여 더 정확하고 포괄적인 분석을 가능하게 한다 .
- 금융 분야에서는 다양한 데이터 소스를 통합하여 위험 관리와 예측 분석을 개선하기 위해 지식 그래프의 잠재성을 인식하고 있다 .
- GraphRAG는 지식 그래프(KGs)를 활용하여 금융 문서에서의 Q&A 시스템의 성능을 향상시키는 새로운 접근 방식이다 .
- Graph RAG는 구조화된 정보로부터 보다 정확하고 문맥을 반영한 응답 생성을 가능하게 하지만, 추상적인 Q&A 작업에서는 성능이 떨어진다 .
- HybridRAG는 Vector RAG와 Graph RAG를 결합하여 LLM에 대한 질의에 대해 외부 문서로부터 관련 정보를 검색하는 새로운 방법이다 .
- Vector RAG는 관련 텍스트 정보를 검색하여 NLP 작업을 향상시킨다 . 하지만, 긴 컨텍스트와 여러 문서에서의 검색 메커니즘의 효율성은 여전히 도전 과제로 남아 있다 .
- HybridRAG는 인도의 대표 지수인 Nifty-50에 포함된 회사들의 수익 발표 영업 성과를 기반으로 한 새로운 실제 Q&A 데이터셋을 활용한다 .
- 전통적인 VectorRAG는 외부 문서에서 정보를 검색하고, 이를 LLM의 내부 훈련 데이터와 결합하여 응답의 정확성과 문맥적 관련성을 향상시키는 방법이다 .
- 검색된 외부 문서는 LLM의 문맥 크기 제한으로 인해 여러 청크로 분할되어 임베딩 모델을 통해 벡터 데이터베이스에 저장된다 .
- 벡터 데이터베이스에서 쿼리에 가장 관련 있는 청크를 식별하고 순위를 매긴 후, 상위 청크를 추출하여 생성 모델의 문맥으로 제공한다.
- 생성 모델은 추출된 문맥을 기반으로 쿼리의 응답을 합성하며, 이를 통해 실시간 정보를 기존의 지식과 합쳐 맥락적으로 관련 있고 상세한 응답을 보장한다 .
- 지식 그래프는 현실 세계의 엔티티, 속성, 관계를 구조적으로 표현하며, 텍스트 데이터에서 엔티티 인식, 관계 추출 등을 통해 설계된다.
- HybridRAG는 Vector RAG와 Graph RAG라는 두 가지 방법론을 통합하여 문맥적 정보를 체계적으로 결합한다 .
- Vector RAG는 유사성 기반의 광범위한 정보 검색을 제공하고, Graph RAG는 구조적이고 관계 풍부한 문맥 데이터를 제공한다 .
- 세 가지 접근법(Vector RAG, Graph RAG, HybridRAG)의 효과성을 비교 분석하여 반응의 질, 정확성, 포괄성에서의 향상을 평가한다 .
- 평가 지표로 포괄성, 다양성, 독창성, 직관성을 활용하여 제공된 질문에 대한 응답의 질을 평가한다 .
- 평가 지표는 최종 생성된 응답을 비교하지만 검색 및 생성 부분을 개별적으로 직접 평가하지는 않는다 .
- 신뢰성 평가 지표는 StatementExtraction과 StatementVerification 단계로 구성된 측정 방법을 사용한다 .
- 답변 관련성 평가는 질문 생성 및 임베딩을 통해 계산되고, 각 생성 질문과 원본 질문의 코사인 유사도를 기준으로 점수가 산정된다 .
- 문맥 정확도(Precision)와 회상율(Recall)은 검색된 문맥의 적절성을 평가하며, 공통적으로 높은 점수를 추구한다 .
- 연구에 사용된 데이터는 Nifty50 기업의 분기별 실적 보고서로 구성되며, 2023년 6월 말 기준 회계연도의 첫 분기를 대상으로 한다.
- 수집된 데이터는 다양한 산업 분야의 50개 기업에서 얻은 50개의 문서로 구성되며, 이는 금융 분석 및 질문-응답 시스템을 위한 기초 자료로 사용된다 .
5. 하이브리드 RAG의 성과와 비교
- HybridRAG는 Faithfulness에서 GraphRAG과 동일하게 0.96 점으로 우수한 성과를 냄 .
- 답변 관련성에서 HybridRAG는 0.96 점으로 가장 높은 성과를 보였으며, Vector RAG와 Graph RAG는 각각 0.91, 0.89 점이다 .
- 문맥 정밀도에서 Graph RAG가 0.96 점으로 가장 우수했으나, 문맥 재현율에서는 Vector RAG및 HybridRAG가 완벽한 1 점을 기록함 .
- HybridRAG는 문맥 통합의 독특한 접근 방식으로 포괄적인 정보 검색을 가능하게 하지만, 이는 문맥 정밀도에 약간의 영향을 미친다 .
- 전반적인 평가에서 HybridRAG는 높은 품질의 답변과 포괄적인 문맥 검색을 균형 있게 유지하여 가장 유망한 접근 방식으로 평가된다.
- RAG의 검색 및 생성 부분을 세 가지 서로 다른 RAG 파이프라인을 통해 평가하였다 .
- VectorRAG, GraphRAG, HybridRAG 접근 방식의 성능에 두드러진 차이가 나타났다 .
- GraphRAG와 HybridRAG는 신뢰도 점수에서 우수한 성과를 보였으며, 각각 0.96으로 평가되었다. 반면 VectorRAG는 0.94에 그쳤다.
- 문맥 정확도는 GraphRAG가 0.96으로 가장 높았으며, VectorRAG는 0.84, HybridRAG는 0.79로 뒤이었다 .
- 전체적으로 GraphRAG는 VectorRAG보다 특히 신뢰성과 문맥 정확도에서 개선된 성능을 보여준다 .
- HybridRAG는 신뢰도와 답변 관련성에서 가장 뛰어난 성과를 보였으며, 높은 컨텍스트 리콜을 유지했다 .
- HybridRAG의 0.79로 관찰된 낮은 문맥 정확도는 VectorRAG와 GraphRAG의 방법을 결합한 독특한 접근법에 기인한다 .
- 이러한 통합은 더 포괄적인 정보 검색을 가능하게 하지만, 그라운드 트루스와 정확히 일치하지 않을 수도 있는 추가 콘텐츠를 도입하여 문맥 정확도에 영향을 미친다 .
- 그럼에도 불구하고, HybridRAG의 신뢰성, 답변 관련성, 문맥 리콜에서의 우수한 성과는 그 효과를 명확히 보여준다 .
- 종합적인 평가 지표를 고려할 때, HybridRAG는 고품질의 답변과 포괄적인 문맥 검색을 균형 잡아 가장 유망한 접근법으로 떠오른다.
- GraphRAG는 추출적 질문에서 VectorRAG보다 좋은 성능을 보이며, VectorRAG는 원시 데이터에 명시적으로 언급되지 않은 정보를 다룰 때 더 좋은 성과를 낸다 .
- GraphRAG는 질문에 명시적으로 언급된 엔티티가 없을 때 종종 질문에 올바르게 답하지 못하며, 이러한 한계를 HybridRAG가 잘 보완한다 .
- 그래프로 반환된 올바른 문맥이 없는 추출적 질문에서는 VectorRAG로 회귀하여 답변을 생성하고, VectorRAG가 올바른 문맥을 가져오지 못하는 경우에는 GraphRAG가 답변을 생성한다 .
6. 결론 : HybridRAG 시스템의 발전과 응용
- Retrieval Augmented Generation(RAG) 기술은 외부 문서에서 정보를 추출하고 LLM의 성능을 향상시키기 위해 개발된 방법이다 .
- 전통적인 RAG방법은 금융 문서와 같은 전문적인 도메인에 적용할 때 한계를 만난다 .
- HybridRAG는 지식 그래프와 벡터 기반 RAG를 통합하여 금융 문서에서 정보 추출의 정확도와 관련성을 크게 향상시킨다 .
- 이 연구는 HybridRAG시스템이 기존의 벡터 기반, KG 기반 방법들보다 정보의 신뢰성, 답변의 관련성, 문맥 회상에서 우수한 성능을 발휘함을 강조한다 .
- 향후 발전 방향으로 멀티모달 입력 처리, 실시간 데이터 스트림 통합 등의 기능을 추가하여 금융 환경에서의 유용성을 높이는 것이 포함된다 .
반응형
댓글