ML & DL/메모

읽으면 AI에 대해 가장 빠르게 똑똑해지는 글 27개

공부하는 무니 2024. 5. 12. 23:13
반응형

OpenAI의 공동 창립자인 일리아 수츠케버가, 둠의 창시자이자 프로그래밍의 전설인 존 카맥에게 AI에 대해 매우 빨리 똑똑해지고 싶으면 읽으라고 말한 27개의 글을 가져왔습니다. (출처: Matt Wolfe)

하나 하나 열어보며 세 줄 요약을 진행했습니다. LLM쪽은 따로 정리해서 진행해야겠지만, 전반적으로 파악하지 매우 좋은 퀄리티들의 글이니 하나하나 집중해서 읽어봐야겠습니다. :)

 

1. The Annotated Transformer

Stanford 대학교의 CS231n 강의에 대한 코스 웹사이트. CNN에 대한 기본 및 심화 학습 가능

세줄요약

  • 이미지 분류, 선형 분류, 최적화, 역전파, 신경망 아키텍처 등 신경망의 기본 개념 학습
  • 합성곱 신경망의 구조, 시각화, 전이학습 등 CNN의 심화 내용 다룸
  • 3개의 프로그래밍 과제를 통해 배운 내용을 직접 구현하고 적용해볼 수 있는 기회 제공

2. The First Law of Complexodynamics

Scott Aaronson이 Sean Carroll의 발표에서 영감을 받아 엔트로피와 복잡도에 대해 쓴 블로그 포스트

세줄요약

  • 엔트로피는 단조 증가하지만 복잡도는 중간에 최대값을 갖는 현상을 복잡역학 제1법칙이라 부를 수 있음.
  • 이를 설명하기 위해 Kolmogorov 복잡도 기반 '복잡엔트로피' 개념을 제안함.
  • 복잡역학 제1법칙의 엄밀한 정립과 증명이 향후 과제임.

3. The Unreasonable Effectiveness of Recurrent Neural Networks

Andrej Karpathy가 쓴 Recurrent Neural Networks(RNN)의 효과성에 대한 블로그 포스트

세줄요약

  • RNN은 순차적 데이터를 처리할 수 있는 강력한 모델로, 문자 단위 언어 모델링에 적용하면 놀라운 결과를 얻을 수 있다.
  • RNN을 셰익스피어 작품, 위키피디아, 수학 교과서, 리눅스 소스코드 등 다양한 데이터에 학습시켜본 결과 해당 도메인의 텍스트를 생성할 수 있게 되었다.
  • RNN의 예측과 뉴런 활성화를 시각화해보면 URL 인식, 마크다운 형식 인식 등 흥미로운 패턴을 학습한 것을 발견할 수 있다.

4. Understanding LSTM Networks

LSTM 네트워크의 구조와 작동 원리를 상세히 설명하는 글.

세줄요약

  • RNN은 순차적 정보 처리에 적합하지만 long-term dependency 문제가 있다.
  • LSTM은 long-term dependency 문제를 해결하기 위해 고안된 RNN의 특별한 형태이다.
  • LSTM은 cell state와 gate들을 통해 정보의 흐름을 조절하며, 이를 통해 장기 기억을 가능케 한다.

5. Recurrent Neural Network Regulation

RECURRENT NEURAL NETWORK REGULARIZATION 논문

세줄요약

  • RNN과 LSTM은 언어 모델링, 음성 인식, 기계 번역 등의 태스크에서 좋은 성능을 보이지만 overfitting 문제가 있다.
  • 기존의 정규화 기법인 Dropout은 RNN과 LSTM에는 잘 동작하지 않아 모델 크기에 제약이 있었다.
  • 본 연구에서는 LSTM에 Dropout을 올바르게 적용하는 방법을 제시하고, 이를 통해 overfitting을 크게 줄일 수 있음을 보였다.

6. Keeping Neural Networks Simple by Minimizing the Description Length of the Weights

Keeping Neural Networks Simple by Minimizing the Description Length of the Weights 논문

세줄요약

  • 신경망의 가중치에 포함된 정보량이 훈련 데이터의 출력 벡터에 포함된 정보량보다 훨씬 적어야 일반화 성능이 좋다.
  • 학습 중에 가중치에 가우시안 노이즈를 추가하고 노이즈 수준을 조절하여 가중치의 정보량을 제한함으로써 overfitting을 방지할 수 있다.
  • 선형 출력 유닛을 사용할 경우 몬테카를로 시뮬레이션 없이도 노이즈가 포함된 가중치의 제곱오차와 정보량에 대한 도함수를 효율적으로 계산할 수 있다.

7. Pointer Networks

Pointer Networks 논문

세줄요약

  • Pointer Network(Ptr-Net)은 입력 시퀀스의 길이에 따라 출력 클래스 수가 변하는 문제를 위해 제안된 신경망 아키텍처이다.
  • Ptr-Net은 기존의 Attention 메커니즘을 변형하여, 디코더의 각 스텝에서 인코더의 hidden state를 블렌딩하는 대신 입력 시퀀스의 한 요소를 출력으로 선택한다.
  • Ptr-Net은 convex hull, Delaunay triangulation, TSP 문제에 대해 훈련 예제만으로 근사해를 학습할 수 있으며, 가변 크기의 출력에 대해 일반화가 가능하다.

8. ImageNet Classification with Deep Convolutional Neural Networks

ImageNet Classification with Deep Convolutional Neural Networks 논문

세줄요약

  • ImageNet LSVRC-2010 대회의 120만개 고해상도 이미지를 1000개 클래스로 분류하기 위해 대규모의 deep CNN을 학습시켰다.
  • 5개의 convolutional layer와 3개의 fully-connected layer로 구성된 6천만개의 파라미터를 가진 네트워크를 사용하여, 기존 최고 성능 대비 크게 향상된 top-1 37.5%, top-5 17.0%의 에러율을 달성하였다.
  • 효과적인 학습을 위해 non-saturating neuron, 효율적인 GPU 구현, Dropout 등의 기법을 사용하였으며, 네트워크 크기는 GPU 메모리 크기와 학습 시간에 의해 제한됨을 확인하였다.

9. Order Matters: Sequence to Sequence for Sets

ORDER MATTERS: SEQUENCE TO SEQUENCE FOR SETS 논문

세줄요약

  • 다양한 예제를 통해 입출력 데이터를 구성하는 순서가 학습하는 모델의 성능에 큰 영향을 미칠 수 있음을 보였다.
  • seq2seq 프레임워크를 확장하여 입력이 집합인 경우를 원칙적으로 다루는 방법을 제안하였다.
  • 학습 중 가능한 순서를 탐색하는 loss를 통해 출력 집합의 구조 부재 문제를 해결하고, 제안된 방법을 여러 벤치마크 및 인공 태스크에 적용하여 성능을 검증하였다.

10. GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism

GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism 논문

세줄요약

  • 가속기의 메모리 제한을 넘어서는 대규모 신경망 학습을 위해 GPipe라는 pipeline parallelism 라이브러리를 제안하였다.
  • GPipe는 계층을 순차적으로 표현할 수 있는 모든 네트워크를 확장할 수 있는 유연성을 제공하며, 새로운 batch-splitting pipelining 알고리즘을 통해 거의 선형적인 속도 향상을 달성하였다.
  • GPipe를 이용하여 이미지 분류에서는 5.57억 파라미터의 AmoebaNet을, 기계번역에서는 1280개 계층에 60억 파라미터를 갖는 다국어 Transformer를 학습시켜 높은 성능을 보였다.

11. Deep Residual Learning for Image Recognition

Deep Residual Learning for Image Recognition 논문

세줄요약

  • 네트워크의 깊이가 증가함에 따라 학습이 어려워지는 degradation 문제를 해결하기 위해 residual learning framework를 제안하였다.
  • Residual learning은 stacked layer가 입력과의 residual을 학습하도록 하여 최적화를 용이하게 하며, 이를 통해 깊은 네트워크도 정확도 향상을 이룰 수 있음을 보였다.
  • ImageNet에서 152 layer residual net으로 3.57%의 top-5 에러를 달성하였고, COCO 등 다양한 인식 task에서도 residual learning의 우수한 성능을 입증하였다.

12. Multi-Scale Context Aggregation by Dilated Convolutions

MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS 논문

세줄요약

  • 시맨틱 세그멘테이션과 같은 dense prediction 문제를 위해 multi-scale contextual information을 활용하면서도 해상도 손실 없이 정보를 통합하는 새로운 convolutional network module을 개발하였다.
  • Dilated convolution을 사용하여 receptive field를 기하급수적으로 확장하면서도 해상도나 coverage 손실 없이 contextual information을 통합할 수 있는 구조를 만들었다.
  • 제안된 context module은 기존 semantic segmentation 아키텍처의 정확도를 향상시켰으며, 또한 image classification용 네트워크를 dense prediction에 맞게 단순화시키는 것이 오히려 정확도를 높일 수 있음을 보였다.

13. Neural Message Passing for Quantum Chemistry

Neural Message Passing for Quantum Chemistry 논문

세줄요약

  • 분자 그래프 데이터에 직접 적용할 수 있고 그래프 동형에 불변인 신경망 모델을 개발하여 화학적 예측 문제에 적용하고자 하였다.
  • 기존의 유망한 그래프 기반 신경망 모델들을 Message Passing Neural Network (MPNN)이라는 하나의 공통된 프레임워크로 재구성하고, 이 안에서 추가적인 변형을 탐색하였다.
  • 제안된 MPNN으로 분자 특성 예측 벤치마크인 QM9 데이터셋의 13개 타겟 중 11개에서 화학적 정확도 수준의 DFT 예측 성능을 달성하였다.

14. Attention Is All You Need

Attention Is All You Need 논문

세줄요약

  • Transformer는 기존의 복잡한 RNN이나 CNN 기반 시퀀스 변환 모델과 달리, attention 메커니즘에만 기반한 단순한 새로운 네트워크 아키텍처이다.
  • Transformer는 병렬화가 가능하고 학습 시간이 획기적으로 줄어들면서도 기계 번역 태스크에서 기존 최고 성능 모델들보다 우수한 성능을 보였다.
  • Transformer 모델은 적은 양의 학습 데이터로도 영어 구문 분석 태스크에 성공적으로 적용되는 등 다른 태스크로의 좋은 일반화 성능을 보여주었다.

15. Neural Machine Translation By Jointly Learning To Align And Translate

NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 논문

세줄요약

  • 기존의 encoder-decoder 기반 신경망 기계번역 모델은 고정 길이 벡터를 사용하여 번역 성능 향상에 한계가 있었다.
  • 제안된 모델은 명시적인 hard segment 없이도 번역에 관련된 source sentence의 부분을 자동으로 soft-search할 수 있도록 확장하였다.
  • 제안된 방법으로 영어-프랑스어 번역 태스크에서 기존의 state-of-the-art phrase-based 시스템과 견줄만한 성능을 단일 모델로 달성하였고, 직관에 부합하는 soft-alignment를 확인할 수 있었다.

16. Identity Mappings in Deep Residual Networks

Identity Mappings in Deep Residual Networks 논문

세줄요약

  • 본 논문에서는 residual building block의 전파 공식을 분석하여, identity mapping을 skip connection으로 사용하고 activation을 덧셈 이후에 적용할 때 순전파와 역전파 신호가 직접 전파될 수 있음을 밝혔다.
  • Identity mapping의 중요성을 뒷받침하는 일련의 ablation 실험을 통해, 학습을 더 쉽게 만들고 일반화를 개선하는 새로운 residual unit을 제안하였다.
  • CIFAR-10에서 1001-layer ResNet으로 4.62%의 에러를, ImageNet에서 200-layer ResNet을 사용하여 개선된 결과를 달성하였다.

17. A simple neural network module for relational reasoning

A simple neural network module for relational reasoning 논문

세줄요약

  • Relation Network(RN)은 신경망에서 관계 추론을 위한 간단한 plug-and-play 모듈로, 개체 간의 관계에 대한 추론이 필요한 문제 해결에 활용될 수 있다.
  • RN이 추가된 신경망을 CLEVR 데이터셋의 visual question answering에 적용하여 기존 최고 성능을 능가하는 초인간적 성능을 달성하였다.
  • RN 기반 아키텍처는 bAbI 질의응답, 복잡한 물리 시스템 추론 등 상이한 태스크 도메인에서도 성공적으로 적용되어 관계 추론 문제 해결에 대한 RN의 범용적 유용성을 입증하였다.

18. Variational Lossy Autoencoder

VARIATIONAL LOSSY AUTOENCODER 논문

세줄요약

  • VAE와 RNN, MADE, PixelRNN/CNN 등의 자기회귀 모델을 결합하여 representation learning을 수행하는 원칙적 방법을 제안하였다.
  • 제안된 VAE 모델은 전역 잠재 코드가 학습할 내용을 제어할 수 있게 하며, 그에 맞게 아키텍처를 설계함으로써 2D 이미지의 텍스처 등 관련 없는 정보를 버리게 할 수 있다.
  • 자기회귀 모델을 사전분포와 디코딩 분포로 활용하여 VAE의 생성 모델링 성능을 크게 향상시켰고, MNIST, OMNIGLOT, Caltech-101 등의 밀도 추정 태스크에서 새로운 SOTA 결과를 달성하였다.

19. Relational recurrent neural networks

Relational recurrent neural networks 논문

세줄요약

  • 기존의 메모리 기반 신경망이 관계적 추론을 잘 못 한다는 걸 확인하고, 멀티헤드 도트 제품 주의를 쓰는 새로운 메모리 모듈인 Relational Memory Core (RMC)를 만들어서 개선했다.
  • RMC는 메모리들이 서로 상호작용할 수 있게 해서 시퀀스 정보에 대한 관계적 추론 능력을 높였고, 여러 태스크에 적용해서 성능이 좋아졌다.
  • RMC는 강화 학습, 프로그램 평가, 언어 모델링에서 뛰어난 결과를 보여주며, WikiText-103, Project Gutenberg, GigaWord 데이터셋에서 최고 성과를 냈다.

20. Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton

Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton 논문

세줄요약

  • 이 논문은 닫힌 시스템에서 엔트로피는 계속 증가하는 반면, 복잡성이나 흥미로움은 먼저 증가한 후 균형 상태에 접근함에 따라 감소하는 패턴을 정량화하기 위한 첫 시도를 다룬다.
  • 연구자들은 두 액체(커피와 크림)가 혼합되는 것을 시뮬레이션하는 간단한 이차원 셀룰러 오토마톤을 사용하여, 상태의 거친 근사치인 '명백한 복잡성'을 측정하는 콜모고로프 복잡성을 제안한다.
  • 액체 입자들이 상호 작용할 때 복잡성은 '커피잔'의 수평 크기에 비례하여 최대에 도달한다는 수치적 증거를 제시하고, 이러한 행동을 분석적으로 증명하는 문제를 제기한다.

21. Neural Turing Machines

Neural Turing Machines 논문

세줄요약

  • 이 연구에서는 주의력 과정을 통해 외부 메모리 자원과 상호작용할 수 있는 신경망의 기능을 확장하고, 이를 튜링 머신이나 폰 노이만 구조와 유사하게 하되, 엔드-투-엔드로 미분 가능하게 설계하여 기울기 하강법으로 효율적으로 훈련할 수 있게 했다.
  • 제안된 '뉴럴 튜링 머신'(NTM)은 복사, 정렬, 연관 기억과 같은 간단한 알고리즘을 입력과 출력 예시에서 추론할 수 있음을 초기 결과가 보여준다.
  • NTM은 작업 메모리 시스템과 유사하며, 메모리를 선택적으로 읽고 쓰기 위한 주의력 프로세스를 사용하여 간단한 프로그램의 유도와 실행에 필요한 작업 수행에 적합하도록 설계되었다.

22. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin 논문

세줄요약

  • 이 연구는 외부 메모리와 연결되어 주의력 메커니즘을 통해 상호작용하는 신경망을 통해 영어와 중국어 발화를 인식할 수 있는 심층 학습 방법을 제안한다.
  • 이 시스템은 복잡한 기능 추출과 언어 모델을 포함한 기존 음성 인식 파이프라인을 신경망으로 대체하여 다양한 환경과 언어에서 효과적으로 작동한다.
  • 향상된 하드웨어 및 소프트웨어 최적화를 통해 실험 시간을 단축시키고, 실시간으로 온라인 배포가 가능하며, 여러 표준 데이터셋에서 인간 수준의 성능을 달성하거나 초과하는 결과를 보여준다.

23. Scaling Laws for Neural Language Models

Scaling Laws for Neural Language Models 논문

세줄요약

  • 이 연구는 언어 모델의 성능이 모델 크기, 데이터셋 크기, 그리고 훈련에 사용된 계산량과 같은 규모 요소에 따라 지수 법칙을 따라 변화한다는 경험적 법칙을 발견하고 설명한다.
  • 복잡한 아키텍처 상세보다는 모델 크기, 데이터셋 크기, 그리고 계산 자원의 규모가 성능에 더 큰 영향을 미치며, 이들 요소를 적절히 확대할 때 언어 모델의 성능이 개선된다.
  • 최적의 계산 효율성을 달성하기 위해서는 매우 큰 모델을 상대적으로 적은 데이터셋에서 훈련시키고 수렴 전에 훈련을 중단하는 것이 포함된다.

24. A Tutorial Introduction to the Minimum Description Length Principle

A Tutorial Introduction to the Minimum Description Length Principle 논문

세줄요약

  • 최소 설명 길이(MDL) 원칙은 관측된 데이터를 가장 효율적으로 설명하는 모델을 선택하는 문제, 즉 모델 선택 문제에 대한 해결책을 제공한다.
  • MDL은 데이터에서 규칙성을 찾아 데이터를 압축하여 설명하는 방식으로, 데이터를 더 적은 기호로 표현할 수록 더 많은 정보를 학습했다고 볼 수 있다.
  • 이 원칙은 학습을 데이터의 규칙성 발견과 동일시하며, 데이터 압축을 통해 더 많은 것을 배웠다는 개념으로 귀결되는 일반적인 귀납 추론 이론을 형성한다.

25. Machine Super Intelligence

Machine Super Intelligence 책

세줄요약

  • 알려지지 않은 계산 가능한 환경에서 최적의 행동을 보이는 이론적 에이전트들, 즉 범용 인공지능에 관해 다루며, 이 에이전트들은 이론적으로 모든 환경에서 최적의 성능을 낼 수 있는 능력을 갖추고 있다고 설명한다.
  • 솔로몬오프의 수동 유도 모델을 확장하여 활동적 사례로 발전시킨 마커스 허터의 작업을 통해, 이론적으로 모든 환경에서 최적의 행동을 보일 수 있는 범용 에이전트에 대한 이론이 개발되었다.
  • 비록 AIXI와 같은 범용 에이전트가 이론적으로는 매우 강력하지만, 실제로는 계산 가능한 자원의 한계로 인해 이론적 모델을 실제 알고리즘으로 구현하는 것에는 여전히 많은 문제와 열린 질문이 남아 있다.

26. Kolmogorov Complexity and Algorithmic Randomness

Kolmogorov Complexity and Algorithmic Randomness 책

세줄요약

  • 1960년대 Kolmogorov, Solomonoff, Chaitin에 의해 처음 제안된 알고리즘 복잡성 개념은 계산 이론, 확률 이론, 정보 이론 사이의 관계를 탐구하며 개발되었다.
  • 이 개념은 각 문자열 또는 객체의 정보량을 측정하여, 해당 객체를 생성할 수 있는 가장 짧은 프로그램의 길이를 통해 정의됨으로써, 확률 이론에 의존하지 않는 정보 이론을 구축하고자 했다.
  • 알고리즘 복잡성 이론은 시간이 지남에 따라 통계적 원리와 알고리즘 무작위성 개념에 대한 이해를 심화시키는 데 기여하였으며, 여러 학자들이 이론의 명칭과 표기법을 통일하려는 시도가 이루어졌지만, 여전히 다양한 표현이 혼용되고 있다.

27. CS231n Convolutional Neural Networks for Visual Recognition

Course Website

CS231n 과정, "Convolutional Neural Networks for Visual Recognition" 강의 노트. 이미지 인식과 관련된 여러 주제와 기술, 과제를 다루며, 심층적인 이해를 목표로 한다.

세줄요약

  • CS231n 과정은 다양한 학습 모듈을 통해 컨볼루션 신경망(CNN)과 시각적 인식에 대해 깊이 있게 다루며, 이미지 분류, 최적화, 신경망 구조 설정 등을 포함한다.
  • 과제들은 기본적인 이미지 분류에서 시작해, 배치 정규화, 드롭아웃을 포함한 심화 신경망, 이미지 캡션 생성 등 고급 주제로 발전한다.
  • 강의는 이론적 배경, 실습 코드, 신경망의 시각화 및 이해, 전이 학습 등 다양한 방법을 통해 학생들이 실제 문제를 해결할 수 있도록 설계되어 있다.

 

 

반응형