본문 바로가기
반응형

ML & DL62

Critique Fine-Tuning:Learning to Critique is More Effective than Learning to Imitate 원문: https://arxiv.org/pdf/2501.17703Abstract 기존의 Supervised Fine-Tuning(SFT)은 모델이 주어진 주석 응답을 그대로 모방하도록 훈련합니다.본 논문은 Critique Fine-Tuning(CFT)을 제안하여, 모델이 노이즈가 포함된 응답에 대해 비판을 수행하도록 학습시킵니다.CFT는 인간의 비판적 사고를 모방하여 보다 깊은 분석과 미묘한 이해를 유도합니다.WebInstruct 데이터셋 50K 샘플을 사용해 GPT-4o가 생성한 비판을 기반으로 학습하며, 수학 관련 벤치마크에서 SFT 대비 4–10% 향상된 성능을 보였습니다.또한, Qwen2.5-Math-CFT 모델은 단 1시간의 훈련으로 2M 샘플 기반의 경쟁 모델과 동등하거나 더 나은 성능을 달성.. 2025. 2. 2.
SRMT: SHARED MEMORY FOR MULTI-AGENT LIFE-LONG PATHFINDING 원문: https://arxiv.org/pdf/2501.13200 이 논문은 다중 에이전트 강화 학습 (MARL) 환경에서 에이전트 간의 효과적인 협력을 위한 공유 메모리 접근법을 제안한다. 이는 에이전트들이 서로의 정보를 교환하고 행동을 조정할 수 있는 메커니즘으로, Shared Recurrent Memory Transformer (SRMT) 를 통해 구현된다. 실험 결과, SRMT는 다양한 벤치마크 문제에서 기존 접근 방식보다 뛰어난 성능을 보여주었다. 특히, 희소한 보상 상황에서도 안정적인 성과를 기록하며, 그 성과는 훈련된 길이보다 긴 경로에서도 유효했다.  1.  다중 에이전트 환경에서의 협력적 강화 학습 접근법다중 에이전트 강화 학습(MARL)은 협력적 및 경쟁적 다중 에이전트 문제를 해결하는.. 2025. 1. 26.
TALK LIKE A GRAPH: ENCODING GRAPHS FORLARGE LANGUAGE MODELS 원문: https://arxiv.org/pdf/2310.04560v1 ABSTRACT래프는 소셜 네트워크, 추천 시스템, 금융 계산 등 실제 세계의 복잡한 관계를 표현하고 분석하는 데 매우 유용한 도구입니다. 그래프를 활용한 추론은 복잡한 시스템에서 엔티티 간의 관계를 이해하고 숨겨진 패턴과 트렌드를 발견하는 데 필수적입니다.자연어를 사용한 자동 추론 기술이 많이 발전했지만, 대형 언어 모델(LLM)을 사용하여 그래프에서 추론하는 문제는 아직 잘 연구되지 않았습니다. 이 연구에서는 그래프 구조 데이터를 텍스트로 변환해 LLM이 처리하도록 하는 방법에 대해 처음으로 포괄적으로 분석했습니다.연구 결과, LLM의 그래프 추론 성능은 다음 세 가지 주요 요인에 따라 달라진다는 점을 밝혔습니다:그래프를 텍스트로 .. 2025. 1. 12.
A Generalization of Transformer Networks to Graphs 원문: https://arxiv.org/pdf/2012.09699 ## 1. 연구 배경 및 목적이 연구는 자연어 처리(NLP)에서 큰 성공을 거둔 트랜스포머 네트워크를 그래프 데이터에 적용하기 위한 혁신적인 방법을 제안합니다. 기존의 트랜스포머는 텍스트 데이터와 같은 순차적 데이터를 처리하는 데 탁월했지만, 복잡한 그래프 구조를 다루는 데는 한계가 있었습니다. 연구진은 이러한 한계를 극복하고 그래프의 구조적 특성을 효과적으로 활용할 수 있는 새로운 아키텍처를 개발했습니다.## 2. 주요 혁신점### 2.1 위치 인코딩의 혁신### 라플라시안 행렬(Laplacian Matrix)- 그래프의 구조적 특성을 수학적으로 표현하는 행렬- 차수 행렬(Degree Matrix)에서 인접 행렬(Adjacency Mat.. 2025. 1. 5.
반응형