본문 바로가기
ML & DL/논문리뷰

RAPTOR: RECURSIVE ABSTRACTIVE PROCESSINGFOR TREE-ORGANIZED RETRIEVAL

by 공부하는 무니 2024. 5. 26.
반응형

ABSTRACT

스탠포드 대학교의 연구팀이 개발한 RAPTOR 모델은 언어 모델이 정보를 더 잘 검색하고 이해할 수 있도록 돕기 위한 새로운 접근 방식입니다.

 

연구 목적

일반적으로, 검색을 보강한 언어 모델은 세상에서 일어나는 변화를 더 잘 반영하고, 드문 지식을 통합하는 데 도움이 됩니다. 하지만, 대부분의 기존 방법들은 검색할 때 문서의 짧고 연속된 부분만을 가져오므로 문서 전체의 맥락을 이해하는 데 한계가 있습니다.

 

RAPTOR 모델의 주요 아이디어

1. 재귀적 임베딩, 클러스터링, 요약

문서의 작은 부분(청크)을 재귀적으로 임베딩하고, 클러스터링하며, 요약합니다.

이렇게 하면 문서의 요약 수준이 다른 여러 단계로 구성된 트리를 만들 수 있습니다.

2. 트리 구조를 활용한 검색

추론 시, RAPTOR 모델은 이 트리에서 검색하여 다양한 요약 수준에서 정보를 통합합니다.

이를 통해 긴 문서에서도 전체적인 맥락을 이해할 수 있습니다.

 

연구 결과

성능 향상

재귀적 요약을 통한 검색은 전통적인 검색 보강 언어 모델보다 여러 작업에서 성능을 크게 향상시킵니다.

특히, 복잡하고 여러 단계의 추론이 필요한 질문-응답 작업에서 최첨단 성능을 보여줍니다.

예를 들어, RAPTOR 검색을 GPT-4와 결합하면 QuALITY 벤치마크에서 절대 정확도를 20% 개선할 수 있습니다.

 

이 연구는 정보 검색과 언어 모델의 결합 방식을 혁신적으로 개선하여, 문서 전체의 맥락을 더 잘 이해하고 활용할 수 있게 합니다. RAPTOR 모델은 특히 복잡한 문제를 해결하는 데 강력한 도구가 될 수 있습니다.

1 INTRODUCTION

연구 배경

대형 언어 모델(LLM)은 많은 작업에서 인상적인 성과를 보이며, 지식을 효과적으로 저장하는 도구로 발전해왔습니다. 그러나 LLM은 특정 도메인에 필요한 구체적인 지식을 항상 충분히 포함하지 않으며, 세계가 계속 변하면서 모델 내의 정보가 갱신되지 않아 유효하지 않은 경우가 발생합니다. 이러한 문제를 해결하기 위해 추가적인 파인 튜닝이나 편집은 어려울 수 있습니다.

 

기존 접근 방식의 한계

대안적인 접근 방식으로는 오픈 도메인 질문 응답 시스템이 있습니다. 이 방법은 대규모 텍스트를 청크(단락)로 분할한 후, 별도의 정보 검색 시스템에 색인화하여 필요한 정보를 검색하여 언어 모델에 제공하는 방식입니다. 이러한 검색 보강 방법은 특정 도메인에 대한 최신 지식을 제공하고, 출처 추적이 용이하다는 장점이 있습니다. 그러나 대부분의 기존 방법은 짧고 연속된 텍스트 청크만을 검색하므로, 문서의 전체적인 맥락을 반영하는 데 한계가 있습니다. 이는 특히 여러 부분에서 지식을 통합해야 하는 질문, 예를 들어 전체 책의 내용을 이해해야 하는 질문에서는 큰 문제로 작용합니다.

 

RAPTOR의 접근 방식

이를 해결하기 위해, RAPTOR는 텍스트의 고수준 및 저수준 세부사항을 모두 캡처할 수 있는 트리 구조를 사용한 색인 및 검색 시스템을 설계했습니다.

1. 트리 구조 형성

텍스트 청크를 재귀적으로 클러스터링하고, 각 클러스터의 요약을 생성하여 트리를 형성합니다.

이 과정은 텍스트 청크를 벡터 임베딩으로 클러스터링하고, 클러스터 요약을 생성하여 상위 노드를 형성하는 방식으로 진행됩니다.

2. 검색 과정

RAPTOR는 트리 구조에서 다양한 요약 수준의 텍스트 청크를 검색하여 LLM의 컨텍스트에 로드합니다.

이를 통해 다양한 수준에서 질문에 효과적이고 효율적으로 답변할 수 있습니다.

 

연구 결과

RAPTOR는 세 가지 언어 모델(UnifiedQA, GPT-3, GPT-4)와의 통제된 실험을 통해, 현재의 검색 보강 방법보다 우수한 성능을 보였습니다. 특히, RAPTOR와 GPT-4를 결합하면 세 가지 질문 응답 작업(NarrativeQA, QASPER, QuALITY)에서 새로운 최첨단 성과를 기록했습니다.

 

요약

RAPTOR는 텍스트 요약을 사용하여 다양한 규모에서 컨텍스트를 보강하는 아이디어를 도입하였으며, 긴 문서의 집합에서 그 효과를 실험적으로 입증했습니다. 이는 특히 복잡한 질문에 대한 답변을 제공할 때 큰 효과를 발휘하며, 기존의 방법보다 우수한 성능을 보였습니다.

2 RELATED WORK

왜 검색이 필요한가?

 

최근 하드웨어와 알고리즘의 발전 덕분에 모델이 처리할 수 있는 문맥 길이가 확장되었습니다. 이에 따라 검색 시스템의 필요성에 대한 의문이 제기되었습니다. 하지만 연구에 따르면, 모델은 긴 문맥을 잘 활용하지 못하며, 문맥 길이가 길어질수록 성능이 감소하는 경향이 있습니다. 특히 중요한 정보가 긴 문맥 안에 묻혀있을 때 이러한 현상이 두드러집니다. 또한, 긴 문맥을 사용하는 것은 비용이 많이 들고 속도가 느려집니다. 따라서 지식 집약적인 작업에서는 여전히 가장 관련성이 높은 정보를 선택하는 것이 중요합니다.

 

검색 방법

검색 보강 언어 모델(RALMs)은 여러 구성 요소에서 개선되었습니다: 검색기, 읽기기, 그리고 엔드 투 엔드 시스템 훈련.

 

1. 전통적인 검색 기법

초기에는 TF-IDF와 BM25와 같은 용어 기반 기법이 사용되었습니다.

2. 딥 러닝 기반 검색 기법

최근에는 대형 언어 모델을 검색기로 사용하는 방안이 제안되었습니다. 이는 방대한 지식을 암기할 수 있는 능력 때문입니다.

예: DPR(밀집 통과 검색기), FiD(디코더 통합), RETRO 등.

3. 엔드 투 엔드 시스템 훈련

Atlas, REALM, RAG와 같은 모델들은 검색기와 함께 인코더-디코더 모델을 미세 조정하여 성능을 향상시킵니다.

 

검색 보강 언어 모델의 한계

대부분의 모델들은 텍스트를 청크로 분할하고 BERT 기반 검색기를 사용합니다. 하지만 이러한 접근 방식은 텍스트의 전체 의미적 깊이를 포착하지 못할 수 있습니다. 특히 기술적 또는 과학적 문서에서 추출된 조각은 중요한 문맥을 놓칠 수 있어 읽기 어렵거나 오해를 일으킬 수 있습니다.

 

재귀적 요약 기법

문서 요약 기법은 문서를 요약하여 내용을 보다 집중적으로 다룰 수 있게 합니다. 하지만 기존 방법들은 요약 과정에서 세부 사항을 놓칠 수 있습니다. RAPTOR는 재귀적 요약 기법을 사용하여 인접하지 않은 텍스트 조각들 간의 관계를 파악하고 그룹화하여 이러한 문제를 해결합니다.

 

요약

이 섹션에서는 검색 보강 언어 모델의 필요성과 다양한 검색 방법들, 그리고 그 한계점에 대해 설명합니다. 또한, RAPTOR의 재귀적 요약 기법이 기존 방법의 한계를 어떻게 극복하는지에 대해 논의합니다.

3 METHODS

RAPTOR 개요

RAPTOR는 긴 텍스트가 종종 하위 주제와 계층적 구조를 나타낸다는 아이디어를 기반으로 만들어졌습니다. RAPTOR는 의미적 깊이와 연결성을 고려하여 재귀적 트리 구조를 구축함으로써, 넓은 주제적 이해와 세부적인 정보를 균형 있게 처리할 수 있도록 합니다. 텍스트 내 순서에 기반하지 않고 의미적 유사성에 따라 노드를 그룹화합니다.

 

트리 구조 구축

RAPTOR 트리의 구축은 검색 말뭉치를 길이 100의 짧고 연속된 텍스트로 분할하는 것으로 시작합니다. 문장이 100토큰을 초과하면 문맥과 의미의 일관성을 유지하기 위해 해당 문장을 다음 청크로 이동시킵니다. 그런 다음, 이 텍스트 청크들은 SBERT(멀티 qa-mpnet-base-cos-v1) 임베딩을 사용하여 임베딩됩니다. 이 청크와 해당 SBERT 임베딩은 트리 구조의 리프 노드를 형성합니다.

 

클러스터링 알고리즘

유사한 텍스트 청크를 그룹화하기 위해 클러스터링 알고리즘을 사용합니다. 클러스터링된 후에는 언어 모델을 사용하여 그룹화된 텍스트를 요약합니다. 요약된 텍스트는 다시 임베딩되고, 임베딩, 클러스터링, 요약의 반복 사이클이 계속되어 더 이상의 클러스터링이 불가능해질 때까지 진행됩니다. 이 과정에서 원래 문서의 구조화된 다층 트리 표현이 생성됩니다.

 

검색 전략

RAPTOR에서는 두 가지 검색 전략을 도입합니다. 트리 순회와 압축된 트리.

1. 트리 순회: 트리의 레이어를 순차적으로 탐색하며 각 레이어에서 가장 관련성 높은 노드를 선택합니다.

2. 압축된 트리: 모든 레이어의 노드를 한 번에 평가하여 가장 관련성 높은 노드를 선택합니다.

 

소프트 클러스터링

클러스터링 과정에서는 소프트 클러스터링을 사용하여 노드가 여러 클러스터에 속할 수 있게 합니다. 이를 통해 개별 텍스트 청크가 다양한 주제와 관련된 정보를 포함할 수 있도록 합니다. GMM(가우시안 혼합 모델)을 기반으로 한 접근 방식은 유연성과 확률적 프레임워크를 제공합니다.

 

요약 모델

GMM으로 클러스터링된 후, 각 클러스터의 노드는 언어 모델로 요약됩니다. 실험에서는 gpt-3.5-turbo를 사용하여 요약을 생성했습니다. 요약 과정은 많은 양의 검색된 정보를 관리 가능한 크기로 압축합니다.

 

쿼리 메커니즘

RAPTOR의 두 가지 쿼리 메커니즘인 트리 순회와 압축된 트리를 자세히 설명합니다.

1. 트리 순회 방법

쿼리 임베딩과 각 레이어의 노드 임베딩 간의 코사인 유사도를 계산하여 가장 관련성 높은 루트 노드를 선택합니다.

선택된 노드의 자식 노드를 다음 레이어에서 고려하며, 이 과정을 반복하여 리프 노드까지 탐색합니다.

선택된 모든 노드의 텍스트를 연결하여 검색된 컨텍스트를 형성합니다.

2. 압축된 트리 방법

모든 노드를 하나의 레이어로 압축합니다.

쿼리 임베딩과 모든 노드의 임베딩 간의 코사인 유사도를 계산하여 가장 관련성 높은 노드를 선택합니다.

최대 토큰 수에 도달할 때까지 가장 관련성 높은 노드를 추가합니다.

 

성능 비교

20개의 QASPER 데이터셋 이야기에서 두 가지 방법을 비교한 결과, 압축된 트리 방법이 일관되게 더 나은 성능을 보였습니다. 압축된 트리 접근 방식은 쿼리에 따라 적절한 수준의 세부 정보를 검색할 수 있어 더 큰 유연성을 제공합니다.

질적 연구

1500단어 분량의 신데렐라 동화를 사용하여 주제별, 다단계 질문에 대한 RAPTOR의 검색 프로세스를 DPR 방법과 비교하는 질적 연구를 수행했습니다. RAPTOR의 트리 기반 검색은 다양한 트리 레이어에서 노드를 선택하여 질문의 세부 수준에 맞는 정보를 제공합니다.

 

결론

RAPTOR는 다양한 추상화 수준에서 컨텍스트 정보를 보강하여 대형 언어 모델의 파라메트릭 지식을 향상시키는 새로운 트리 기반 검색 시스템입니다. 재귀적 클러스터링 및 요약 기법을 사용하여 원본 문서의 구조화된 다층 트리를 생성하고, 쿼리 단계에서 이 트리 구조를 활용하여 더 효과적인 검색을 수행합니다. RAPTOR는 전통적인 검색 방법보다 우수한 성능을 보였으며, 여러 질문-응답 작업에서 새로운 성능 기준을 세웠습니다.

4 EXPERIMENTS

데이터셋

RAPTOR의 성능을 측정하기 위해 세 가지 질문-응답 데이터셋(NarrativeQA, QASPER, QuALITY)을 사용했습니다.

 

1. NarrativeQA

책과 영화 대본의 전체 텍스트를 기반으로 한 질문-응답 데이터셋으로, 총 1,572개의 문서를 포함합니다. 이 데이터셋은 전체 이야기의 이해를 요구하며, BLEU, ROUGE, METEOR 지표를 사용하여 성능을 측정합니다.

2. QASPER

1,585개의 NLP 논문에서 5,049개의 질문을 포함하며, 질문은 논문의 전체 텍스트 내 정보를 묻습니다. 정답 유형은 답변 가능/불가능, 예/아니오, 추상적, 추출적입니다. 정확도는 F1 점수로 측정합니다.

3. QuALITY

평균 5,000개의 토큰으로 구성된 문맥 단락과 함께 다지선다형 질문을 포함하는 데이터셋입니다. 이 데이터셋은 중간 길이의 문서에서 QA 작업의 성능을 측정하며, 특히 어려운 하위 집합인 QuALITY-HARD도 포함합니다.

 

통제된 기준 비교

RAPTOR의 성능을 비교하기 위해 UnifiedQA 3B 모델을 리더로 사용하고, SBERT, BM25, DPR을 검색 모델로 사용하여 RAPTOR 트리 구조를 사용한 경우와 사용하지 않은 경우를 비교했습니다. 실험 결과, RAPTOR는 모든 데이터셋에서 각 검색 모델을 결합했을 때 항상 더 나은 성능을 보였습니다.

세부 성능 결과

QASPER 데이터셋

GPT-3, GPT-4, UnifiedQA와 함께 사용한 RAPTOR는 BM25와 DPR보다 높은 F1 점수를 기록했습니다.

예를 들어, RAPTOR는 GPT-4를 사용할 때 55.7%의 F1 점수를 기록하며, 이는 DPR보다 2.7 포인트, BM25보다 5.5 포인트 높습니다.

QuALITY 데이터셋

RAPTOR는 DPR과 BM25보다 각각 2%, 5.1% 높은 정확도를 기록했습니다.

NarrativeQA 데이터셋

RAPTOR는 여러 지표에서 BM25와 DPR보다 더 높은 점수를 기록했습니다. 예를 들어, ROUGE-L 지표에서 BM25보다 7.3 포인트, DPR보다 2.7 포인트 더 높았습니다.

검색 방법 비교

RAPTOR의 두 가지 검색 방법인 트리 순회(tree traversal)와 압축된 트리(collapsed tree)를 비교한 결과, 압축된 트리 방법이 더 나은 성능을 보였습니다. 이 방법은 모든 노드를 한 번에 평가하여 관련성 높은 노드를 선택합니다.

결론

RAPTOR는 기존의 검색 방법을 능가하는 성능을 보이며, 특히 긴 텍스트의 이해가 필요한 질문-응답 작업에서 뛰어난 성과를 보여줍니다. 이를 통해 RAPTOR의 트리 구조와 재귀적 요약 기법이 효과적임을 입증하였습니다.

4.1 CONTRIBUTION OF THE TREE STRUCTURE

RAPTOR의 검색 능력에 각 노드 층이 얼마나 기여하는지 조사했습니다. 우리는 상위 노드가 텍스트에 대한 더 넓은 이해를 필요로 하는 주제별 또는 다중 단계 쿼리를 처리하는 데 중요한 역할을 한다고 가정했습니다.

 

NarrativeQA 데이터셋에서 여러 모델을 비교한 성능 결과를 표로 제시했습니다. 특히 ROUGE-L, BLEU-1, BLEU-4, METEOR 네 가지 지표에 초점을 맞췄습니다. RAPTOR와 UnifiedQA 3B의 조합은 BM25와 DPR 같은 기존의 검색 방법을 능가했으며, METEOR 지표에서 새로운 최첨단 성능을 달성했습니다.

주요 발견

이 가설을 정량적 및 정성적으로 검증했습니다. 정성적 분석은 부록 G에 제시되어 있습니다. 상위 레벨 노드의 기여를 정량적으로 이해하기 위해 QuALITY 데이터셋의 이야기를 사용했습니다. RAPTOR 트리는 각 이야기별로 구축되었으며, 검색 중에는 각 레이어의 하위 집합으로 검색을 제한했습니다. 예를 들어, 리프 노드 및 각 상위 레이어에서만 검색하거나 다양한 연속적인 레이어 하위 집합에서 검색했습니다. 표 8에 제시된 결과는 전체 트리 검색이 특정 레이어에만 초점을 맞춘 검색 전략보다 우수하다는 것을 보여줍니다. 이러한 발견은 RAPTOR의 전체 트리 구조의 중요성을 강조합니다. 원본 텍스트와 상위 요약 텍스트를 모두 제공함으로써 RAPTOR는 더 넓은 범위의 질문을 효과적으로 처리할 수 있습니다.

5 CONCLUSION

이 논문에서 RAPTOR라는 새로운 트리 기반 검색 시스템을 제안했습니다. RAPTOR는 대형 언어 모델의 파라메트릭 지식을 다양한 추상화 수준에서 컨텍스트 정보로 보강합니다. 재귀적 클러스터링 및 요약 기법을 사용하여 RAPTOR는 검색 말뭉치의 다양한 섹션에서 정보를 종합할 수 있는 계층적 트리 구조를 만듭니다. 쿼리 단계에서 RAPTOR는 이 트리 구조를 활용하여 더 효과적인 검색을 수행합니다. 논문에서 진행된 실험은 RAPTOR가 전통적인 검색 방법보다 우수할 뿐만 아니라 여러 질문-응답 작업에서 새로운 성능 기준을 세운다는 것을 보여주었습니다.

6 REPRODUCIBILITY STATEMENT

질문 응답 및 요약을 위한 언어 모델

RAPTOR 실험에서는 GPT-3와 GPT-4가 질문 응답 작업에 사용되었고, GPT-3.5-turbo가 요약 작업에 사용되었습니다. gpt-3, gpt-4, gpt-3.5-turbo 모델은 OpenAI API를 통해 접근할 수 있습니다. 질문 응답 작업에 사용된 UnifiedQA는 Hugging Face에서 공개적으로 이용할 수 있습니다.

평가 데이터셋

실험에 사용된 세 가지 평가 데이터셋—QuALITY, QASPER, NarrativeQA—는 모두 공개적으로 접근 가능합니다. 이 데이터셋들은 본 연구에서 수행된 검색 및 질문 응답 테스트가 재현 가능하도록 보장합니다.

소스 코드

RAPTOR의 소스 코드는 여기에서 공개적으로 제공될 예정입니다.

 

RAPTOR의 실험 결과를 재현할 수 있도록 필요한 언어 모델과 데이터셋, 그리고 소스 코드 접근 방법을 설명하고 있습니다. 연구의 투명성과 재현 가능성을 높이기 위해 필요한 모든 자료를 공개적으로 제공합니다. 

반응형

댓글