반응형 ML & DL/논문리뷰28 The Surprising Effectiveness ofTest-Time Training for Abstract Reasoning 원문: https://arxiv.org/pdf/2411.07279Abstract언어 모델은 훈련 데이터 내의 작업에서는 뛰어난 성능을 보이지만, 복잡한 추론이 필요한 새로운 문제에서는 종종 어려움을 겪습니다. 우리는 테스트 시점 학습(Test-Time Training, TTT)을 사용하여 모델의 추론 능력을 향상시키는 방법을 연구했습니다. TTT란 추론(모델 예측)을 수행하는 동안 입력 데이터를 기반으로 한 손실(loss)을 이용해 모델의 파라미터를 임시로 업데이트하는 기법입니다. 이 연구에서는 추상적 추론 데이터셋(ARC, Abstraction and Reasoning Corpus)을 벤치마크로 사용하여 TTT의 효과를 평가했습니다. 실험을 통해 TTT를 성공적으로 적용하기 위해 필요한 세 가지 중요한.. 2024. 11. 17. GNN-RAG: Graph Neural Retrieval for LargeLanguage Model Reasoning 논문 원문: https://paperswithcode.com/paper/gnn-rag-graph-neural-retrieval-for-large Papers with Code - GNN-RAG: Graph Neural Retrieval for Large Language Model ReasoningImplemented in one code library.paperswithcode.com코드: https://github.com/cmavro/GNN-RAGAbstract본 논문에서는 대규모 언어 모델(Large Language Models, LLM)의 추론 능력을 향상시키기 위한 새로운 프레임워크인 GNN-RAG를 제안한다. 지식 그래프(Knowledge Graph, KG)는 머리, 관계, 꼬리의 삼중항을 통해.. 2024. 11. 10. G-Retriever: Retrieval-Augmented Generation forTextual Graph Understanding andQuestion Answering 원문: https://arxiv.org/pdf/2402.07630Abstract연구의 핵심은 사람들이 그래프와 '대화'를 할 수 있게 만드는 것입니다. 더 자세히 말하면, 사용자가 그래프에 대해 질문을 하면 -> 시스템이 텍스트로 답변을 하고 -> 그래프에서 관련된 부분을 하이라이트해서 보여줍니다.기존 연구와의 차이점- 기존 연구들은 주로 단순한 그래프나 작은 그래프만 다뤘습니다- 이 연구는 실제 세상의 복잡한 그래프를 다룰 수 있습니다- 다양한 분야(장면 이해, 상식 추론, 지식 그래프 등)에 적용 가능합니다해결 방법 (G-Retriever)- 대규모 언어 모델(LLM)을 사용합니다- 그래프가 너무 커서 한 번에 처리하기 어려울 때를 대비해 '검색 증강 생성(RAG)' 방식을 도입했습니다- 특히 'Pr.. 2024. 11. 3. LLM Internal States Reveal Hallucination Risk Faced With a Query 원문: https://ar5iv.labs.arxiv.org/html/2407.03282 LLM Internal States Reveal Hallucination Risk Faced With a QueryThe hallucination problem of Large Language Models (LLMs) significantly limits their reliability and trustworthiness. Humans have a self-awareness process that allows us to recognize what we don’t know when faced with …ar5iv.labs.arxiv.orgAbstractLLM의 환각 문제는 신뢰성을 크게 떨어뜨립니다. 해당 논문에서 연구.. 2024. 10. 20. 이전 1 2 3 4 5 6 7 다음 반응형