반응형 전체 글301 [나는 리뷰어다] AI를 위한 필수 수학 "한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 책 'AI를 위한 필수 수학'은 인공지능을 이해하고 활용하기 위해 꼭 알아야 할 수학적 개념들을 체계적으로 설명한 책입니다. 인공지능의 발전이 가속화되면서 수학이 그 핵심 역할을 담당하고 있음을 강조하며, 독자에게 이러한 개념들을 친절하게 안내하고 있습니다. 각 장의 내용을 간략히 살펴보면 다음과 같습니다.1장: 인공지능 수학을 왜 배워야 할까?첫 장에서는 왜 인공지능을 이해하려면 수학이 필수적인지 설명하고 있습니다. 인공지능 기술은 이미 우리 생활 곳곳에 자리 잡았으며, 그 영향력은 계속해서 커지고 있습니다. 저자는 인공지능에 대한 깊은 이해가 필요하다고 강조하며, 수학이 그 이해를 돕는 중요한 도구임을 역설합니다. 특히 "허구와 현실 사.. 2024. 9. 29. QWEN2 TECHNICAL REPORT ABSTRACT알리바바의 Qwen 팀이 새로운 인공지능 모델 시리즈인 'Qwen2'를 발표했습니다. 이 모델은 기존의 큰 언어 모델과 다양한 형태의 정보를 처리할 수 있는 멀티모달 모델을 개선한 최신 버전이라고 합니다.Qwen2의 주요 특징은 다음과 같습니다.1. 다양한 크기의 모델 Qwen2는 작은 모델부터 큰 모델까지 다양하게 제공합니다. 가장 작은 모델은 5억 개의 매개변수를, 가장 큰 모델은 720억 개의 매개변수를 가지고 있습니다. 이렇게 다양한 크기의 모델을 제공하는 이유는 사용자의 필요와 환경에 맞게 선택할 수 있도록 하기 위해서인듯 합니다.2. 뛰어난 성능 Qwen2는 이전 모델인 Qwen1.5보다 더 좋은 성능을 보여주고 있습니다. 심지어 일부 비공개 모델들과 비교해도 꽤 좋은 성.. 2024. 9. 15. Graph-Aware Language Model Pre-Training on a Large GraphCorpus Can Help Multiple Graph Applications 논문 원문: https://arxiv.org/pdf/2306.02592ABSTRACT대규모 텍스트 말뭉치에 대한 모델 사전 학습이 NLP 분야의 다양한 하위 응용 프로그램에 효과적임이 입증되었습니다. 그래프 마이닝 분야에서도 유사한 유추를 통해 대규모 그래프에서 그래프 모델을 사전 학습하여 하위 그래프 응용 프로그램에 도움이 되기를 기대할 수 있으며, 이는 최근 여러 연구에서도 탐구되었습니다. 그러나 풍부한 텍스트 정보를 가진 대규모 이종 그래프(일명 대규모 그래프 말뭉치)에서 텍스트와 그래프 모델을 함께 사전 학습한 후, 서로 다른 그래프 스키마를 가진 다양한 관련 하위 응용 프로그램에 대해 모델을 미세 조정하는 연구는 아직 없었습니다. 이 문제를 해결하기 위해, 우리는 대규모 그래프 말뭉치에 대한 그.. 2024. 9. 8. CHAIN-OF-VERIFICATION REDUCES HALLUCINATIONIN LARGE LANGUAGE MODELS 원문: https://arxiv.org/pdf/2309.11495 ABSTRACT대규모 언어 모델에는 '할루시네이션'이라고 부르는 문제가 있습니다. 이는 그럴듯하지만 사실은 틀린 정보를 만들어내는 현상을 말합니다. 연구자들은 이 문제를 해결하기 위해 'Chain-of-Verification(COVE)' 방법을 개발했습니다.COVE 방법은 다음과 같은 4단계로 이루어집니다.1. AI가 먼저 초안 답변을 작성합니다.2. 그 초안의 사실 여부를 확인하기 위한 질문들을 계획합니다.3. 다른 답변들에 영향을 받지 않도록 독립적으로 그 질문들에 답합니다.4. 마지막으로 검증된 최종 답변을 생성합니다.연구자들은 이 방법을 여러 종류의 태스크에 적용해 보았습니다. 예를 들어, Wikidata에서 가져온 목록 기반 질문.. 2024. 9. 1. [나는 리뷰어다] AI 딥 다이브 "한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다."결론을 먼저 말하자면, 두고두고 반복해서 읽을 책입니다.책을 열고 '잡지 같다'라는 인상이 들었습니다.주제 하나에 대해 내용이 아주 길지도 않고, 책 자체도 저자가 기고한 글을 엮어서 만들어서 더 그런 느낌이 났던 것 같습니다.가벼운 마음으로 읽을 수 있지만, 또 내용을 따라가다보면 얕지만은 않습니다.문장 하나하나를 얼마나 고민해서 썼는지가 느껴집니다.참고한 논문과 서적을 찾아가다보면 하루에 한 주제를 못 읽을 때도 많았습니다.책을 읽으면서 저자에게 존경심이 들었는데, 옮긴이의 글에서 그 이유를 찾을 수 있었습니다."AI의 고전과 신고전, 이론과 실제를 넓고 깊게 정리해서 읽는 것만으로 머릿속의 엔트로피를 줄여줍니다. 정보가 흘러넘치는 시대일.. 2024. 8. 25. [밑시딥2] Chapter 8. 어텐션 8.1 어텐션의 구조어텐션 메커니즘을 사용하여 seq2seq에서 필요한 정보에만 '주목'할 수 있게 된다.또한, seq2seq가 가지고 있던 문제도 해결할 수 있게 된다.8.1.1 seq2seq의 문제점seq2seq에서는 Encoder가 시계열 데이터를 인코딩하고, 이 인코딩된 정보를 Decoder로 전달한다.이때 Encoder의 출력은 '고정 길이 벡터'였는데, 이 부분에 큰 문제점이 있다.고정 길이 벡터는 입력 데이터(문장)의 길이에 관계없이, 항상 같은 길이의 벡터로 변환한다.그렇기 때문에, 필요한 정보가 벡터에 다 담기지 못한다.8.1.2 Encoder 개선Encoder 출력의 길이를 입력 문장의 길이에 맞추어서 바꿔준다.이제 마지막 은닉 상태뿐 아니라 각 시각(각 단어)의 은닉 상태 벡터를 모두.. 2024. 8. 12. [C언어로 쉽게 풀어 쓴 자료구조] 1 자료구조와 알고리즘 1.1 자료구조와 알고리즘자료구조란?프로그램에서 자료들을 정리하여 보관하는 여러 가지 구조. 일상생활에서도 사용한다. 스택: 그릇을 쌓아서 보관하는 것큐: 마트 계산대의 줄리스트: 버킷 리스트사전: 영어사전그래프: 지도트리: 컴퓨터 디렉토리 구조 프로그램 = 자료구조 + 알고리즘 알고리즘이란?컴퓨터로 문제를 풀기 위한 단계적인 절차문제와 컴퓨터가 주어진 상태에서 문제를 해결하는 방법을 정밀하게 장치가 이해할 수 있는 언어로 기술한 것정의 1.1 알고리즘- 입력: 0개 이상의 입력이 존재하여야 한다.- 출력: 1개 이상의 출력이 존재하여야 한다.- 명백성: 각 명령어의 의미는 모호하지 않고 명확해야 한다.- 유한성: 한정된 수의 단계 후에는 반드시 종료되어야 한다.- 유효성: 각 명령어들은 종이와 연필, .. 2024. 8. 11. [밑시딥2] CHAPTER 7 RNN을 사용한 문장 생성 7.1 언어 모델을 사용한 문장 생성7.1.1 RNN을 사용한 문장 생성의 순서Language Model(LM)은 지금까지 주어진 단어들에서 다음에 출현하는 단어의 확률분포를 출력한다.위의 그림을 토대로 다음 단어를 새로 생성하기 위한 방법은 다음과 같은 방법들이 있다.확률이 가장 높은 단어를 선택한다 → "결정적(deterministic)"인 방법확률이 높은 단어는 잘 선택되고, 확률이 낮은 단어는 덜 선택한다 → "확률적(probabilistic)"인 방법7.1.2 문장 생성 구현아래의 코드에서 문장 생성을 수행하는 메서드는 generate(start_id, skip_ids, sample_size)다.start_id: 최초로 주는 단어의 IDskip_ids: 단어 ID의 리스트 (ex. [12, 20.. 2024. 8. 5. 이전 1 2 3 4 5 6 7 ··· 38 다음 반응형