본문 바로가기
반응형

전체 글284

The Surprising Effectiveness ofTest-Time Training for Abstract Reasoning 원문: https://arxiv.org/pdf/2411.07279Abstract언어 모델은 훈련 데이터 내의 작업에서는 뛰어난 성능을 보이지만, 복잡한 추론이 필요한 새로운 문제에서는 종종 어려움을 겪습니다. 우리는 테스트 시점 학습(Test-Time Training, TTT)을 사용하여 모델의 추론 능력을 향상시키는 방법을 연구했습니다. TTT란 추론(모델 예측)을 수행하는 동안 입력 데이터를 기반으로 한 손실(loss)을 이용해 모델의 파라미터를 임시로 업데이트하는 기법입니다. 이 연구에서는 추상적 추론 데이터셋(ARC, Abstraction and Reasoning Corpus)을 벤치마크로 사용하여 TTT의 효과를 평가했습니다. 실험을 통해 TTT를 성공적으로 적용하기 위해 필요한 세 가지 중요한.. 2024. 11. 17.
GNN-RAG: Graph Neural Retrieval for LargeLanguage Model Reasoning 논문 원문: https://paperswithcode.com/paper/gnn-rag-graph-neural-retrieval-for-large Papers with Code - GNN-RAG: Graph Neural Retrieval for Large Language Model ReasoningImplemented in one code library.paperswithcode.com코드: https://github.com/cmavro/GNN-RAGAbstract본 논문에서는 대규모 언어 모델(Large Language Models, LLM)의 추론 능력을 향상시키기 위한 새로운 프레임워크인 GNN-RAG를 제안한다. 지식 그래프(Knowledge Graph, KG)는 머리, 관계, 꼬리의 삼중항을 통해.. 2024. 11. 10.
G-Retriever: Retrieval-Augmented Generation forTextual Graph Understanding andQuestion Answering 원문: https://arxiv.org/pdf/2402.07630Abstract연구의 핵심은 사람들이 그래프와 '대화'를 할 수 있게 만드는 것입니다. 더 자세히 말하면, 사용자가 그래프에 대해 질문을 하면 -> 시스템이 텍스트로 답변을 하고 -> 그래프에서 관련된 부분을 하이라이트해서 보여줍니다.기존 연구와의 차이점- 기존 연구들은 주로 단순한 그래프나 작은 그래프만 다뤘습니다- 이 연구는 실제 세상의 복잡한 그래프를 다룰 수 있습니다- 다양한 분야(장면 이해, 상식 추론, 지식 그래프 등)에 적용 가능합니다해결 방법 (G-Retriever)- 대규모 언어 모델(LLM)을 사용합니다- 그래프가 너무 커서 한 번에 처리하기 어려울 때를 대비해 '검색 증강 생성(RAG)' 방식을 도입했습니다- 특히 'Pr.. 2024. 11. 3.
[나는 리뷰어다] 오픈: 비즈니스 패권의 열쇠 "한빛미디어 나는리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."전략적 무기가 된 오픈소스, 그 이면의 진실글로벌 오픈소스 생태계의 중심에서 경험을 쌓은 저자는 이 책을 통해 우리가 흔히 알고 있는 '오픈소스'에 대한 고정관념을 완전히 뒤집습니다. "오픈소스는 순수하지 않다"라는 도발적인 주장으로 시작하는 이 책은, 겉으로 보이는 공유와 협업이라는 가치 뒤에 숨겨진 치열한 비즈니스 전략과 글로벌 패권 경쟁의 실체를 낱낱이 파헤치고 있습니다.오픈소스를 바라보는 새로운 시각저자는 오픈소스를 단순히 기술적 영역이나 개발자들의 공유 문화로 한정짓지 않습니다. 대신 현대 비즈니스 환경에서 핵심 경쟁력을 좌우하는 전략적 도구로 재해석합니다. 특히 주목할 만한 점은 "오픈은 평등하지만 공평하지는 않다"라는.. 2024. 10. 27.
LLM Internal States Reveal Hallucination Risk Faced With a Query 원문: https://ar5iv.labs.arxiv.org/html/2407.03282 LLM Internal States Reveal Hallucination Risk Faced With a QueryThe hallucination problem of Large Language Models (LLMs) significantly limits their reliability and trustworthiness. Humans have a self-awareness process that allows us to recognize what we don’t know when faced with …ar5iv.labs.arxiv.orgAbstractLLM의 환각 문제는 신뢰성을 크게 떨어뜨립니다. 해당 논문에서 연구.. 2024. 10. 20.
LLMS KNOW MORE THAN THEY SHOW: ON THE INTRINSIC REPRESENTATION OF LLM HALLUCINATIONS 원문: https://arxiv.org/pdf/2410.02707코드: https://github.com/technion-cs-nlp/LLMsKnowABSTRACT대규모 언어 모델(LLM)은 종종 사실과 다른 정보를 생성하거나 편향된 결과를 내놓는 등의 오류를 범합니다. 이를 "환각" 또는 "할루시네이션"이라고 부릅니다. 이 연구에서는 LLM의 내부 상태가 자신이 생성한 답변의 정확성에 대한 정보를 담고 있다는 것을 밝혀냈습니다. 이 정보는 생각했던 것보다 더 많고 다양합니다. 주요 발견 사항은 다음과 같습니다.1. 정확성에 대한 정보가 특정 토큰(단어나 구)에 집중되어 있습니다. 이를 활용하면 오류 탐지 성능을 크게 높일 수 있습니다.2. 하지만 이런 오류 탐지 방법은 다른 데이터셋에 적용하면 잘 작동.. 2024. 10. 13.
From Local to Global: A Graph RAG Approach to Query-Focused Summarization 원문: https://arxiv.org/abs/2404.16130Abstract이 연구에서는 외부 지식 소스를 활용해 관련 정보를 검색하는 Retrieval-Augmented Generation (RAG)을 사용하여 대형 언어 모델(LLM)이 비공개 또는 이전에 보지 못한 문서 모음에서 질문에 답변하는 방법을 설명합니다. 그러나 RAG는 "데이터셋의 주요 주제는 무엇인가?"와 같은 전체 텍스트에 대한 질문에는 적합하지 않은데, 이는 이러한 질문이 명시적인 검색이 아니라 질문 중심 요약(QFS) 작업이기 때문입니다. 기존 QFS 방법은 RAG 시스템이 다루는 대규모 텍스트를 처리하는 데 한계가 있습니다.이 문제를 해결하기 위해, 우리는 사용자 질문의 범용성과 소스 텍스트의 양 모두에 대응할 수 있는 'Gr.. 2024. 10. 6.
[나는 리뷰어다] AI를 위한 필수 수학 "한빛미디어  활동을 위해서 책을 제공받아 작성된 서평입니다." 책 'AI를 위한 필수 수학'은 인공지능을 이해하고 활용하기 위해 꼭 알아야 할 수학적 개념들을 체계적으로 설명한 책입니다. 인공지능의 발전이 가속화되면서 수학이 그 핵심 역할을 담당하고 있음을 강조하며, 독자에게 이러한 개념들을 친절하게 안내하고 있습니다. 각 장의 내용을 간략히 살펴보면 다음과 같습니다.1장: 인공지능 수학을 왜 배워야 할까?첫 장에서는 왜 인공지능을 이해하려면 수학이 필수적인지 설명하고 있습니다. 인공지능 기술은 이미 우리 생활 곳곳에 자리 잡았으며, 그 영향력은 계속해서 커지고 있습니다. 저자는 인공지능에 대한 깊은 이해가 필요하다고 강조하며, 수학이 그 이해를 돕는 중요한 도구임을 역설합니다. 특히 "허구와 현실 사.. 2024. 9. 29.
반응형