본문 바로가기
반응형

ML & DL/논문리뷰28

CHAIN-OF-VERIFICATION REDUCES HALLUCINATIONIN LARGE LANGUAGE MODELS 원문: https://arxiv.org/pdf/2309.11495 ABSTRACT대규모 언어 모델에는 '할루시네이션'이라고 부르는 문제가 있습니다. 이는 그럴듯하지만 사실은 틀린 정보를 만들어내는 현상을 말합니다. 연구자들은 이 문제를 해결하기 위해 'Chain-of-Verification(COVE)' 방법을 개발했습니다.COVE 방법은 다음과 같은 4단계로 이루어집니다.1. AI가 먼저 초안 답변을 작성합니다.2. 그 초안의 사실 여부를 확인하기 위한 질문들을 계획합니다.3. 다른 답변들에 영향을 받지 않도록 독립적으로 그 질문들에 답합니다.4. 마지막으로 검증된 최종 답변을 생성합니다.연구자들은 이 방법을 여러 종류의 태스크에 적용해 보았습니다. 예를 들어, Wikidata에서 가져온 목록 기반 질문.. 2024. 9. 1.
FlashAttention-3:Fast and Accurate Attention with Asynchrony and Low-precision 논문 원문: https://tridao.me/publications/flash3/flash3.pdf AbstractTransformer 아키텍처의 핵심 요소인 "어텐션"에 관한 내용으로, 이는 대규모 언어 모델과 긴 문맥 처리 애플리케이션에서 성능의 병목 현상을 일으킬 수 있습니다. FlashAttention은 GPU에서 어텐션을 가속화하기 위해 메모리 읽기/쓰기를 최소화하는 방법을 제시했지만, 최신 하드웨어의 새로운 기능을 완전히 활용하지 못하고 있습니다. 예를 들어, FlashAttention-2는 H100 GPU에서 35%의 활용도에 그칩니다.우리는 Hopper GPU에서 어텐션을 가속화하기 위해 세 가지 주요 기술을 개발했습니다:1. 텐서 코어와 TMA의 비동기성을 활용하여 전체 계산과 데이터 이.. 2024. 7. 14.
Designing a Dashboard forTransparency and Control of Conversational AI 논문 원문: https://arxiv.org/pdf/2406.07882Abstract대화형 언어 모델(Conversational LLMs)은 블랙박스 시스템으로 작동하여 사용자에게 왜 특정 출력이 나오는지 추측하게 만듭니다. 이러한 투명성 부족은 편향성과 진실성에 대한 우려를 증가시키며, 이는 잠재적으로 문제가 될 수 있습니다. 이러한 문제를 해결하기 위해 우리는 해석 가능성 기법과 사용자 경험 디자인을 연결하여 챗봇을 보다 투명하게 만드는 엔드 투 엔드 프로토타입을 제시합니다.우선, 저명한 오픈 소스 언어 모델이 "사용자 모델"을 가지고 있다는 증거를 보여줍니다. 시스템의 내부 상태를 조사하여 사용자의 나이, 성별, 교육 수준, 사회경제적 상태와 관련된 데이터를 추출할 수 있음을 확인했습니다. 다음으로.. 2024. 7. 7.
Using Machine Learning and Smartphone and Smartwatch Data to Detect Emotional States and Transitions: Exploratory Study 논문 원문: https://mhealth.jmir.org/2020/9/e17818/ Using Machine Learning and Smartphone and Smartwatch Data to Detect Emotional States and Transitions: Exploratory StudyIntroduction The emotional states of individuals may change frequently over time. Research has demonstrated the potential of recording daily emotional states and moods in health and well-being, including the early diagnosis of menta.. 2024. 6. 30.
반응형