반응형 전체 글301 Seven Failure Points When Engineering a Retrieval AugmentedGeneration System 원문: https://arxiv.org/pdf/2401.05856ABSTRACTRAG(검색 증강 생성) 시스템은 검색과 생성 기능을 결합한 것으로, 소프트웨어 엔지니어들이 애플리케이션에 의미적 검색 기능을 추가하는 전략입니다. 이 시스템은 질문에 맞는 문서를 찾고, 그 문서를 ChatGPT 같은 대형 언어 모델(LLM)에 전달해 올바른 답을 추출하는 방식입니다. RAG 시스템의 목표!1. LLM의 환각 응답 문제를 줄이기2. 생성된 응답에 출처/참조를 연결하기3. 문서에 메타데이터를 주석 달 필요를 없애기하지만, RAG 시스템은 정보 검색 시스템과 LLM에 의존하는 한계가 있습니다. 이 논문에서는 연구, 교육, 생의학 세 가지 도메인에서 RAG 시스템의 실패 사례를 통해 얻은 경험을 공유하고, 설계 시 .. 2024. 6. 9. RAPTOR: RECURSIVE ABSTRACTIVE PROCESSINGFOR TREE-ORGANIZED RETRIEVAL ABSTRACTRetrieval-augmented language models(탐색 증강 언어 모델)은 세계 상태의 변화에 더 잘 적응하고, 다양한 지식을 통합할 수 있습니다. 하지만 대부분의 기존 방법은 탐색할 때 단편적인 짧은 텍스트 조각들만 사용하여 문서 전체의 맥락을 이해하는 데 한계가 있습니다.우리는 새로운 접근 방식을 소개합니다. 이 방법은 텍스트 조각들을 반복적으로 임베딩(embedding), 군집화(clustering), 요약하여, 아래에서 위로 요약 수준이 다른 트리를 구성합니다. 추론 시점에는 RAPTOR 모델이 이 트리에서 탐색하여, 긴 문서의 정보를 다양한 추상화 수준에서 통합합니다. 실험 결과, 반복적인 요약을 통한 탐색은 전통적인 탐색 증강 언어 모델보다 여러 작업에서 유의미한 .. 2024. 6. 1. RAPTOR: RECURSIVE ABSTRACTIVE PROCESSINGFOR TREE-ORGANIZED RETRIEVAL ABSTRACT스탠포드 대학교의 연구팀이 개발한 RAPTOR 모델은 언어 모델이 정보를 더 잘 검색하고 이해할 수 있도록 돕기 위한 새로운 접근 방식입니다. 연구 목적일반적으로, 검색을 보강한 언어 모델은 세상에서 일어나는 변화를 더 잘 반영하고, 드문 지식을 통합하는 데 도움이 됩니다. 하지만, 대부분의 기존 방법들은 검색할 때 문서의 짧고 연속된 부분만을 가져오므로 문서 전체의 맥락을 이해하는 데 한계가 있습니다. RAPTOR 모델의 주요 아이디어 1. 재귀적 임베딩, 클러스터링, 요약 • 문서의 작은 부분(청크)을 재귀적으로 임베딩하고, 클러스터링하며, 요약합니다. • 이렇게 하면 문서의 요약 수준이 다른 여러 단계로 구성된 트리를 만들 수 있습니다. 2. 트리 구조를 활용한 검색 • 추론 시, R.. 2024. 5. 26. Generative Representational Instruction Tuning Abstract자연어 처리에서 생성(generation)과 임베딩(embedding) 작업을 모두 다룰 수 있는 새로운 방법인 GRIT(Generative Representational Instruction Tuning)에 대해 설명하고 있습니다.기존의 언어 모델들은 주로 생성이나 임베딩 중 한 가지 작업에서만 좋은 성능을 보였습니다. 하지만 GRIT은 명령어(instruction)를 통해 생성과 임베딩 작업을 구분함으로써, 하나의 대형 언어 모델로 두 가지 작업을 모두 처리할 수 있게 합니다.GRIT을 적용한 GRITLM 7B 모델은 MTEB(Massive Text Embedding Benchmark)에서 새로운 최고 성능을 달성했고, 다양한 생성 작업에서도 같은 크기의 다른 모델들을 능가했습니다. 더.. 2024. 5. 19. 읽으면 AI에 대해 가장 빠르게 똑똑해지는 글 27개 OpenAI의 공동 창립자인 일리아 수츠케버가, 둠의 창시자이자 프로그래밍의 전설인 존 카맥에게 AI에 대해 매우 빨리 똑똑해지고 싶으면 읽으라고 말한 27개의 글을 가져왔습니다. (출처: Matt Wolfe)하나 하나 열어보며 세 줄 요약을 진행했습니다. LLM쪽은 따로 정리해서 진행해야겠지만, 전반적으로 파악하지 매우 좋은 퀄리티들의 글이니 하나하나 집중해서 읽어봐야겠습니다. :) 1. The Annotated TransformerStanford 대학교의 CS231n 강의에 대한 코스 웹사이트. CNN에 대한 기본 및 심화 학습 가능세줄요약이미지 분류, 선형 분류, 최적화, 역전파, 신경망 아키텍처 등 신경망의 기본 개념 학습합성곱 신경망의 구조, 시각화, 전이학습 등 CNN의 심화 내용 다룸3개의 .. 2024. 5. 12. [PPO] Proximal Policy Optimization Algorithms Abstract프록시말 정책 최적화(Proximal Policy Optimization, PPO)는 강화학습을 위한 새로운 정책 경사 방법입니다. 이 방법은 환경과의 상호작용을 통해 데이터를 샘플링하고, 확률적 경사 상승법을 사용하여 "대리" 목적 함수를 최적화하는 과정을 번갈아 수행합니다.기존의 정책 경사 방법은 데이터 샘플 하나당 한 번의 경사 업데이트를 수행하는 반면, PPO는 미니배치 업데이트를 여러 번 수행할 수 있는 새로운 목적 함수를 제안합니다. 이는 트러스트 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 장점을 가지면서도, 구현이 훨씬 간단하고 더 일반적이며, 실험적으로 더 나은 샘플 복잡도를 보입니다.PPO는 시뮬레이션 로봇 이동과 아타리 게임.. 2024. 5. 5. [나는 리뷰어다] 인사이드 머신러닝 인터뷰 "한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 이 책을 저의 학습 데이터셋에 바칩니다.데이터셋이 없었다면아무것도 알 수 없었을 것입니다.첫 페이지에 보이는 글입니다. 이것만 봐도 저자가 '찐' 이라는 것이 느껴졌습니다. 제목에서 보이다시피 면접대비를 위한 책이지만, 면접을 준비하는 사람 뿐 아니라 머신러닝을 현업으로 하고 있는 모든 분들께도 분명 도움이 되는 내용들이 많습니다. ML 기본 지식, 시스템 설계, 인프라 설계 등 실무를 한다면 한번쯤 겪게 되는 문제들이 예상질문으로 나와있습니다.ML 분야의 면접은 특히 자료가 많이 없어서 준비할 때 막연했던 느낌이 듭니다. 정보의 불균형이 심해서 여러 커뮤니티에서 질문들을 하며 스스로 정리를 잘 했어야 했는데요. 이 책이 더 일찍 나왔다면 .. 2024. 4. 28. [GPT-2] Language Models are Unsupervised Multitask Learners Abstract 이 논문은 대량의 웹 데이터로 학습시킨 언어 모델이 명시적인 지도 학습 없이 다양한 작업을 수행할 수 있음을 보여줍니다. 주요 내용은 다음과 같습니다: 1. 40GB의 웹 텍스트 데이터로 GPT-2라는 대규모 언어 모델을 학습시켰습니다. 2. 이 모델은 언어 모델링, 질의응답, 기계번역, 요약 등 다양한 자연어처리 작업에서 지도 학습 없이도 준수한 성능을 보였습니다. 3. 모델 크기를 키울수록 제로샷 성능이 크게 향상되었고, 이는 대규모 언어 모델이 자연어 이해 능력을 습득할 수 있음을 시사합니다. 4. 웹 데이터를 활용한 비지도 다중 작업 학습이 강력한 언어 모델 학습에 효과적임을 입증했습니다. 5. 다만 이 방식의 한계점과 부작용에 대해서도 논의하였습니다. 즉, 양질의 대규모 텍스트만.. 2024. 4. 18. 이전 1 ··· 3 4 5 6 7 8 9 ··· 38 다음 반응형