본문 바로가기

ML & DL/논문리뷰

Vector Database Management Techniques and Systems

by 공부하는 무니 2024. 12. 8.

원문: https://www.cs.purdue.edu/homes/csjgwang/pubs/SIGMOD24_VecDB_Tutorial.pdf

벡터 데이터베이스 관리 기술에 대한 포괄적인 개요를 제공하는 논문.

벡터 쿼리 처리, 저장 및 인덱싱, 그리고 최적화 및 실행의 다양한 기법들을 다루며, 이를 통해 효율적인 데이터 검색의 중요성을 강조하고 있다. 또한, 기존의 전통적인 데이터 관리 시스템들이 벡터의 복잡성에 대응하지 못하는 문제와 이에 대한 해결책을 제시한다.

벡터 데이터베이스 시스템(VDBMS)의 최신 기술이 산업에서 어떻게 응용되는지를 알 수 있는 논문이다.

벡터 데이터베이스 관리의 필요성과 발전

기존의 전통적인 데이터베이스 관리 시스템은 특징 벡터의 고유한 특성을 처리하는데 부적합하다 .
벡터 데이터베이스 관리 시스템(VDBMS)은 쿼리 처리에서 유사성 점수 설계 및 선택과 쿼리 인터페이스를 포함한 다양한 쿼리 처리 기법을 적용한다 .
저장 및 인덱싱을 위해서는 다양한 인덱스를 다루고, 압축 및 디스크 상주 인덱스에 관한 논의가 이루어진다 .
그리고 하드웨어 가속 및 분산 검색을 포함한 하이브리드 쿼리 처리 및 최적화 기법을 적용한다 .
또한, 현재의 시스템, 검색 엔진 및 라이브러리를 검토하고, 연구 도전과제와 해결되지 않은 문제들을 다룬다 .

벡터 데이터베이스의 쿼리 처리와 유사성점수

유사성 점수는 두 특징 벡터 간의 유사성을 수량화하며, 기본 점수, 집계 점수 및 학습된 점수로 분류될 수 있다 .
기본 점수에는 해밍 거리, 내적, 코사인 각도, 민코프스키 거리 및 마할라노비스 거리가 포함된다 .
점수 선택은 특정 애플리케이션에 가장 적합한 점수를 선택하는 것으로, 자동화된 점수 선택은 여전히 도전 과제다 .
데이터 조작 쿼리를 통해 벡터 컬렉션을 수정할 수 있으며, 검색 쿼리에는 k-최근접 이웃(𝑘-NN)과 근사 최근접 이웃(ANN) 쿼리가 포함된다 .
대부분의 VDBMS는 혼합 쿼리와 배치 쿼리를 지원하며, 여러 특징 벡터를 통해 쿼리하는 다중 벡터 쿼리도 지원할 수 있다 .

벡터 데이터 색인 기법

그래프는 노드 간의 거리를 통해 벡터 검색을 안내하며, 엣지는 유사성으로 가중치가 부여될 수 있다 .
k-최근접 이웃 그래프(KNNG)는 각 벡터를 가장 유사한 k개의 벡터와 연결하여 정확한 KNN 쿼리를 가능하게 한다 .
단조 검색 네트워크(MSN)와 작은 세계 그래프(SWG)는 그래프를 쉽게 탐색할 수 있도록 엣지 선택을 목표로 한다 .
KNNG 구축은 근본적으로 O(N^2) 시간이 소요되며, 여러 기법들은 반복적인 개량을 통해 근사 KNNG를 구현한다 .
SWG는 로그 스케일로 노드 방문 수가 증가하며, 효율적인 검색을 지원하는 네비게이블(Navigable) 그래프이다 .

벡터 데이터베이스: 시스템 유형 및 업데이트 기법

비동기로 복제본에 업데이트를 처리하거나, 임시 구조에 저장 후 일괄 적용하는 방식으로 업데이트를 수행한다 .
Native 시스템은 특정 벡터 워크로드에 맞춰 설계되어 있으며, 일부는 벡터와 속성 모두를 다루는 혼합 워크로드를 처리하기도 한다 .
대부분의 벡터 시스템은 벡터 쿼리에 최적화되어 있어 속성 기반 검색 기능은 제한적이다 .
NoSQL 및 관계형 시스템에서도 벡터 기능을 통합하여 혼합 쿼리를 지원하는 방법을 채택하고 있다 .
벡터 검색을 제공하기 위한 검색 엔진과 라이브러리도 존재하며, 관리 시스템을 필요로 하지 않는 애플리케이션에 유용하다 .

최신 벡터 데이터베이스 및 근접 검색 기법 연구 목록

다양한 벡터 데이터베이스와 관련된 웹사이트와 GitHub 저장소가 열거되어 있다 .
연구들은 주로 근사 최근접 검색 (Approximate Nearest Neighbor Search)에 중점을 두고 있으며, 다양한 알고리즘과 모델이 제안되고 있다 .
LSH(Locality-Sensitive Hashing), 제품 양자화(Product Quantization)와 같은 특정 기법들의 개발 및 최적화가 이루어지고 있다 .
고차원 데이터 공간에서 거리 측정(metric)의 행동을 통한 검색의 의미와 이와 관련된 새로운 프로젝트가 주로 논의되고 있다 .
논문, 회의, 저널 등의 다양한 출처에서 발표된 연구들은 벡터 데이터베이스 시스템의 실제 적용 사례와 이론적 배경을 동시에 제공하고 있다 .

벡터 데이터베이스의 중요성과 전통적 데이터베이스 시스템의 한계

벡터 데이터베이스 관리는 다양한 응용 프로그램에서 중요한 역할을 한다 .
기존의 데이터베이스 관리 시스템은 벡터의 독특한 특성을 효과적으로 처리하지 못한다 .
특징 벡터는 모호한 의미 유사성, 큰 크기, 비싼 유사성 비교 등의 문제점을 가진다 .
구조화된 속성과 특징 벡터가 결합된 "혼합" 쿼리에 대한 응답이 어렵다 .

벡터 데이터베이스 관리 시스템(VDBMS)

다양한 벡터 데이터베이스 관리 시스템(VDBMS)들이 쿼리 처리, 저장, 인덱싱, 쿼리 최적화 및 실행을 위한 혁신적인 기술을 결합하여 개발되었다 .
튜토리얼에서는 벡터 데이터베이스 관리 기술과 시스템을 검토하고, 쿼리 처리, 저장, 인덱싱 관련된 다양한 측면 및 문제를 다룬다 .
쿼리 최적화 및 실행에 있어 하이브리드 쿼리 처리, 하드웨어 가속 및 분산 검색을 검토하며, 이에 관한 기존 시스템, 검색 엔진, 라이브러리 및 벤치마크를 소개한다 .
마지막으로, 연구 과제와 미해결 문제에 대해 설명한다 .
고차원의 특성 벡터는 LLM, 전자상거래, 추천 시스템, 문서 검색 등 다양한 응용 분야에서 사용된다 .

벡터 데이터베이스 관리 시스템(VDBMS)의 최신 동향

단순 속성과 비교해 벡터 검색은 메모리를 많이 소모하며 비용이 더 비싸다 .
벡터 데이터는 정렬 가능하거나 순서가 있다는 명확한 속성을 결여하고 있어 전통적인 인덱싱 기법 사용이 어렵다 .
이러한 문제를 해결하기 위해 지난 5년간 20개 이상의 상업용 벡터 데이터베이스 관리 시스템(VDBMS)이 개발되었다 .

VDBMS는 k-최근접이웃 검색, 하이브리드 및 다중 벡터 쿼리 등의 새로운 쿼리 유형과 유사 투영 및 하이브리드 인덱스 스캔과 같은 데이터 연산자를 도입한다 .
대규모 벡터 인덱싱과 저장을 위한 해싱, 양자화 기반 접근법과 그래프 기반 인덱스 등이 실무에서 효율적으로 사용된다 .

벡터 데이터베이스 관리 시스템의 최신 기술 및 도전 과제

벡터 인덱싱은 무작위화, 학습된 분할 및 탐색 가능한 분할 기술에 의존하며 성능과 정확성은 사용된 인덱스 구조에 좌우된다 .
벡터 압축을 위해 양자화와 디스크 오브젝트 인덱스가 사용되며, 혼합 쿼리 처리를 위한 규칙 기반 및 비용 기반 선택 기법이 제안되었다 .
하드웨어 가속을 통한 벡터 검색 성능 향상 기법이 있으며, 업그레이드를 피하는 인덱스 업데이트 기법도 사용된다 .
일부 VDBMS는 높은 성능의 벡터 검색을 목표로 하며, 이런 시스템들에는 Pinecone, Milvus, Manu가 포함된다 .
벤치마크는 다양한 검색 알고리즘과 시스템을 평가하며, 기본 벡터 인덱스를 통합한 Apache Lucene과 Elasticsearch도 벡터 검색 기능을 제공한다 .

벡터 데이터베이스 관리와 쿼리 점수 선택

기본 점수는 해밍 거리, 내적, 코사인 각도, 민코프스키 거리, 마할라노비스 거리 등을 포함하며, 벡터 공간에서 파생된다 .
여러 쿼리나 특징 벡터를 포함하는 작업량에서 평균이나 가중 합계를 통해 종합 점수를 얻을 수 있다 .
적합한 점수를 학습하여 쿼리 결과를 개선하려는 메트릭 학습이 제안되었으며, 자동 점수 선택은 여전히 어렵다 .
쿼리 엔티티가 모호할 수 있으며, 이를 해결한 후 적합한 점수를 선택해야 한다 .
고차원 문제는 거리 기반 점수의 유용성을 제한하여 다른 점수들이 보완해야 한다 .

벡터 데이터베이스 관리의 미래 방향 및 연구 과제

벡터 데이터베이스 관리에서는 여전히 해결해야 할 여러 과제가 남아 있다.
기존 시스템도 충분한 해결책을 제공하지 못하는 문제점을 가지고 있다.
이러한 문제를 해결하기 위한 필수적인 연구 방향이 제안되고 있다.
특히, 벡터 쿼리의 효율적인 처리와 관리를 위한 새로운 접근방식이 필요하다.
이 논의는 현재 기술의 종합적 결론을 제공하며, 향후의 연구 필요성을 강조한다.

저작자표시 비영리 변경금지 (새창열림)

'ML & DL > 논문리뷰' 카테고리의 다른 글

A Generalization of Transformer Networks to Graphs (0)	2025.01.05
KAG: Boosting LLMs in Professional Domains viaKnowledge Augmented Generation (2)	2024.12.15
Retrieval-Augmented Generation with Knowledge Graphs forCustomer Service Question Answering (0)	2024.12.01
HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction (2)	2024.11.24
The Surprising Effectiveness ofTest-Time Training for Abstract Reasoning (0)	2024.11.17

댓글

티스토리툴바