본문 바로가기
반응형

전체 글255

[나는 리뷰어다] 인사이드 머신러닝 인터뷰 "한빛미디어  활동을 위해서 책을 제공받아 작성된 서평입니다." 이 책을 저의 학습 데이터셋에 바칩니다.데이터셋이 없었다면아무것도 알 수 없었을 것입니다.첫 페이지에 보이는 글입니다. 이것만 봐도 저자가 '찐' 이라는 것이 느껴졌습니다. 제목에서 보이다시피 면접대비를 위한 책이지만, 면접을 준비하는 사람 뿐 아니라 머신러닝을 현업으로 하고 있는 모든 분들께도 분명 도움이 되는 내용들이 많습니다. ML 기본 지식, 시스템 설계, 인프라 설계 등 실무를 한다면 한번쯤 겪게 되는 문제들이 예상질문으로 나와있습니다.ML 분야의 면접은 특히 자료가 많이 없어서 준비할 때 막연했던 느낌이 듭니다. 정보의 불균형이 심해서 여러 커뮤니티에서 질문들을 하며 스스로 정리를 잘 했어야 했는데요. 이 책이 더 일찍.. 2024. 4. 28.
[GPT-2] Language Models are Unsupervised Multitask Learners Abstract 이 논문은 대량의 웹 데이터로 학습시킨 언어 모델이 명시적인 지도 학습 없이 다양한 작업을 수행할 수 있음을 보여줍니다. 주요 내용은 다음과 같습니다: 1. 40GB의 웹 텍스트 데이터로 GPT-2라는 대규모 언어 모델을 학습시켰습니다. 2. 이 모델은 언어 모델링, 질의응답, 기계번역, 요약 등 다양한 자연어처리 작업에서 지도 학습 없이도 준수한 성능을 보였습니다. 3. 모델 크기를 키울수록 제로샷 성능이 크게 향상되었고, 이는 대규모 언어 모델이 자연어 이해 능력을 습득할 수 있음을 시사합니다. 4. 웹 데이터를 활용한 비지도 다중 작업 학습이 강력한 언어 모델 학습에 효과적임을 입증했습니다. 5. 다만 이 방식의 한계점과 부작용에 대해서도 논의하였습니다. 즉, 양질의 대규모 텍스트만.. 2024. 4. 18.
[BERT] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract BERT는 복잡하게 들릴 수 있는데, 실제로는 언어를 이해하는 데 큰 도움이 되는 간단한 아이디어에 기반을 두고 있습니다. BERT는 기본적으로 대량의 텍스트 데이터를 사용하여 컴퓨터가 언어의 구조를 학습할 수 있게 해주는 모델입니다. 이 모델의 핵심은 양방향성을 가진다는 것입니다. 즉, BERT는 문장을 처리할 때, 단어 앞뒤의 문맥을 모두 고려합니다. 이전의 많은 모델들은 문장을 한 방향(왼쪽에서 오른쪽 또는 그 반대)으로만 처리했기 때문에, BERT가 가져온 큰 변화 중 하나 입니다. 이런 방식 덕분에, BERT는 문장 안에서 단어의 의미를 더 정확하게 파악할 수 있게 되고, 이는 다양한 언어 처리 작업에서 더 좋은 성능을 낼 수 있게 해주게 됩니다. 예를 들어, 사람이 질문에 답하.. 2024. 4. 11.
[GPT-1]Improving Language Understandingby Generative Pre-Training Abstract 자연어 이해는 텍스트 속에 숨겨진 의미를 파악하고 질문에 대답하는 등 다양한 작업을 포함하는 분야입니다. 이러한 작업을 위해서는 대량의 텍스트 데이터가 필요한데, 레이블이 붙어 있는 데이터는 부족한 상황입니다. 이 연구에서는 레이블이 없는 텍스트를 활용하여 언어 모델을 사전 학습시키고, 이를 각 작업에 맞게 파인 튜닝하는 방법을 제안합니다. 이 방법은 기존 방식과 달리 모델 구조를 크게 변경하지 않고도 효과적으로 적용할 수 있습니다. 실험 결과, 이 방법으로 학습한 모델이 각 작업에 특화된 모델보다 더 우수한 성능을 보였습니다. 구체적으로 상식 추론, 질의응답, 텍스트 함의 등 다양한 자연어 이해 작업에서 SOTA 대비 큰 성능 향상을 달성했습니다. 즉, 대량의 텍스트 데이터를 활용한 사.. 2024. 4. 4.
[나는 리뷰어다] 실무로 통하는 인과추론 with 파이썬 "한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 데이터 사이언스라고 하면 머신러닝이 먼저 떠오르지만, 사실 데이터 분석의 꽃은 바로 '인과관계'를 밝혀내는 일이라고 합니다. 성공적인 테크 기업들은 모두 제품 개발과 직원 성과 측정에 이 인과관계 분석을 활용하고 있죠. 그런데 이게 말처럼 쉽진 않다고 합니다. 어떤 데이터를 어떻게 모을지, 어떤 방법으로 분석할지 등을 꼼꼼히 따져봐야 해요. 제품마다 인과관계 분석 방법도 조금씩 달라지고요. 책에서는 인과추론이 왜 어려운지 설명하고, 인과추론을 위한 기초 개념부터 A/B 테스트부터 통제집단합성법까지 실무에서 쓰이는 다양한 분석 기법을 설명합니다. 그리고 이론 뿐 아니라 파이썬 코드도 함께 제공하기 때문에 실제 실무에서도 적용할 수 있도록 합니다.. 2024. 3. 24.
[나는 리뷰어다] 밑바닥부터 시작하는 딥러닝 4 "한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 밑시딥 시리즈 1,2,3권 스터디를 모두 마치고 기고문을 작성하던 때, 밑시딥 4권이 곧 나온다는 소식을 듣고 기다리고 있었는데요. 감사하게도 한빛미디어 활동을 하게 되면서 책을 읽게 되었습니다. '밑바닥부터 시작하는 딥러닝4'는 강화학습에 대해 바닥부터 다루는 책입니다. 마음에 들었던 점은 각 개념의 정의와 용어를 명확하게 정리하여 배경지식이 많지 않은 사람들도 쉽게 접근할 수 있다는 점이었습니다. 또한, 수학적 개념들을 매우 쉬운 설명으로 풀어내고 있습니다. 기초적인 확률, 예를 들어 기댓값부터 시작해 큰 수의 법칙과 확률의 배경까지 세세하게 설명합니다. 왜 수학적 개념들이 필요한지 배경까지 설명해주니까 자연스럽게 이해할 수 있게 되었습니.. 2024. 2. 25.
[밑시딥2] CHAPTER 5 순환 신경망(RNN) 지금까지 살펴본 신경망은 feed forward 신경망이었다. 흐름이 단방향인 신경망을 의미한다. 이러한 feed forward신경망은 구성이 단순하여 구조를 이해하기 쉽고, 그래서 많은 문제에 응용할 수 있지만 시계열 데이터를 잘 다루지 못한다는 단점이 있다. 더 정확히 feed forward 신경망에서는 시계열 데이터의 패턴을 충분히 학습할 수 없다. 따라서 순환 신경망(Recurrent Neural Network, RNN)이 등장하게 된다. 5.1 확률과 언어 모델 RNN 이야기를 시작하기 전, word2vec을 복습해보자. 5.1.1 word2vec을 확률 관점에서 바라보다 word2vec의 CBOW모델을 복습해보자. 그리고 맥락이 주어졌을 때 타깃이 해당 중심 단어가 될 확률은 아래와 같다. 지.. 2023. 7. 21.
[밑시딥2] CHAPTER 3 word2vec 3.1 추론 기반 기법과 신경망 3.1.1 통계 기반 기법의 문제점 2장에서 다뤘던 통계 기반 기법은 대규모 말뭉치를 다룰 때 문제가 발생한다. 현업에서 다루는 말뭉치의 어휘 수는 어마어마하다. 영어의 어휘 수는 100만이 넘는데, 이를 통계 기반 기법을 적용하면 100만x100만이라는 거대한 행렬이 만들어진다. 통계 기반 기법은 말뭉치 전체의 통계를 이용해 단 1회의 처리 만에 단어의 분산 표현을 얻는다. 한편 추론 기반 기법에서는 특히 신셩망을 이용하는 경우 미니배치로 학습하는 것이 일반적이다. 추론 기반 기법은 여러 머신과 여러 GPU를 이용한 병렬 계산도 가능해져서 학습 속도를 높일 수 있다. 3.1.2 추론 기반 기법 개요 우리는 이 모델로 신경망을 사용한다. 모델은 맥락 정보를 입력받아 각 단.. 2023. 7. 12.
반응형