본문 바로가기
ML & DL/논문리뷰

EGGROLL: Evolution Strategies at the Hyperscale

by 공부하는 무니 2025. 12. 7.
반응형

원문: https://arxiv.org/pdf/2511.16652 

코드: https://eshyperscale.github.io/

Abstract

이 논문은 수십억 개의 파라미터를 가진 거대 모델을 학습시킬 때, 기존의 역전파(Backpropagation) 방식이 아닌 진화 전략(Evolution Strategies, ES)을 효과적으로 적용할 수 있는 새로운 방법론인 EGGROLL을 제안합니다.
기존의 ES는 모델의 모든 파라미터 크기만큼의 거대한 노이즈 행렬을 생성해야 했기 때문에, 메모리와 연산 비용 문제로 거대 모델에 적용하기 불가능했습니다. 이 논문은 이 거대한 노이즈 행렬을 두 개의 작은 저랭크(Low-rank) 행렬의 곱으로 대체하는 획기적인 아이디어를 제시합니다.
놀랍게도 이론적 분석 결과, 이러한 저랭크 근사는 랭크가 커짐에 따라 매우 빠른 속도($O(1/r)$)로 실제 전체 랭크(Full-rank) 업데이트와 동일해짐이 증명되었습니다. 이를 통해 EGGROLL은 미분이 불가능한 정수 전용 모델이나 거대 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 기존 방법들을 뛰어넘는 성능과 효율성을 보여줍니다.

1. Introduction

딥러닝의 주류인 역전파 기반 학습은 강력하지만, 미분 가능해야 한다는 제약과 막대한 메모리 사용량이라는 한계가 있습니다. 반면, 진화 전략(ES)은 미분이 필요 없어 구조가 유연하고 병렬화가 쉽다는 장점이 있어 대안으로 주목받아 왔습니다 .
하지만 ES를 LLM과 같은 거대 모델(Hyperscale)에 적용하려면 수십억 개의 파라미터 각각에 대해 노이즈를 생성하고 연산해야 하므로, 배보다 배꼽이 더 큰 메모리 및 통신 비용 문제가 발생합니다 .
EGGROLL은 이 문제를 해결하기 위해 LoRA(Low-Rank Adaptation)의 아이디어를 차용했습니다. 즉, 거대한 노이즈 행렬 $E$를 직접 만드는 대신, 훨씬 작은 두 행렬 $A$와 $B$를 만들고 이들의 곱($AB^\top$)으로 노이즈를 표현합니다. 이렇게 하면 저장 공간과 연산량을 획기적으로 줄일 수 있어, 수천 대의 GPU가 아닌 단일 GPU나 적은 자원으로도 거대 모델의 진화적 학습이 가능해집니다 .

2. Preliminaries

이 섹션에서는 EGGROLL을 이해하기 위한 수학적 기초를 다룹니다.
- 저랭크 행렬 근사: 거대 모델의 효율적인 학습을 위해, 전체 파라미터 행렬을 고정하고 학습 가능한 작은 랭크의 행렬 두 개($A, B$)를 덧붙여 업데이트하는 방식(예: LoRA)이 널리 쓰이고 있음을 설명합니다 .
- 가우시안 매트릭스 ES:파라미터 공간에서 최적의 점 하나를 찾는 것이 아니라, 파라미터의 확률 분포(Distribution)를 최적화하는 관점으로 접근합니다. 구체적으로는 평균 파라미터 주변에 가우시안 분포를 따르는 노이즈를 섞어보고, 그 결과(적합도)가 좋은 방향으로 분포의 평균을 이동시키는 자연 진화 전략(NES)의 원리를 설명합니다 .

3. Related Work

- 진화 알고리즘의 한계: 과거의 NES나 유전 알고리즘 연구들은 작은 네트워크나 로봇 제어 같은 소규모 문제에 집중되었으며, 인구수(Population size)도 수천 명 수준에 그쳤습니다. EGGROLL은 이를 수십만 명 단위로 확장합니다 .
- LLM을 위한 ES 시도들: 최근 LLM 미세조정에 ES와 유사한 Zeroth-order 최적화를 적용하려는 시도가 있었지만, 대부분 인구수를 1로 설정하는 등 진정한 의미의 '집단 진화'를 구현하지 못했습니다. 이는 사전 학습(Pre-training)과 같은 복잡한 작업에는 역부족이었습니다. EGGROLL은 거대한 인구수를 활용해 이 한계를 극복하고, LLM의 추론 능력 향상과 같은 고난도 작업에서도 성과를 냈다는 점에서 차별화됩니다.

4. EGGROLL

EGGROLL 알고리즘의 구체적인 작동 원리를 설명합니다.


- 저랭크 섭동 생성: 각 워커(GPU/프로세스)는 서로 다른 무작위 시드(seed)를 사용해 작은 행렬 $A_i, B_i$를 생성하고, 이를 곱해 자신만의 고유한 노이즈(섭동) $E_i$를 만듭니다 .
- 적합도 평가 및 업데이트: 각 워커는 노이즈가 적용된 모델의 성능(적합도, Fitness)을 계산합니다. 이후 모든 워커의 적합도 결과를 모아, 성능이 좋았던 노이즈 방향으로 원래 모델의 파라미터를 업데이트합니다. 흥미로운 점은 개별 노이즈 $E_i$는 저랭크(Low-rank)지만, 수많은 워커들의 노이즈가 합쳐진 최종 업데이트 결과는 전체 랭크(Full-rank)를 가지게 되어 모델의 표현력을 해치지 않는다는 것입니다 .
- 하드웨어 효율성: 실제 구현에서는 $AB^\top$라는 큰 행렬을 굳이 만들지 않습니다. 대신 입력 데이터 $x$에 대해 $(xB)A^\top$ 순서로 연산 순서를 최적화하여, GPU에서 훨씬 빠르고 메모리 효율적으로 계산되도록 설계했습니다.

5. Approximation Analysis

"과연 저랭크 노이즈로 학습해도 괜찮을까?"라는 의문에 대한 이론적 답을 제시합니다.
저자들은 수학적 증명을 통해, 저랭크 섭동을 사용하는 EGGROLL의 업데이트 방향이 랭크($r$)가 커질수록 실제 전체 랭크(Full-rank) ES의 업데이트 방향과 빠르게 비슷해짐을 보였습니다.
특히, 노이즈 분포의 대칭성(Symmetry) 덕분에 수렴 속도가 일반적인 경우보다 훨씬 빠른 $O(1/r)$임이 밝혀졌습니다 . 이는 랭크를 1 ($r=1$)과 같이 극단적으로 줄여도, 충분히 많은 수의 인구(Population)가 모이면 전체 랭크 업데이트와 거의 동일한 효과를 낼 수 있음을 의미합니다. 즉, '집단 지성'의 힘으로 개별 노이즈의 단순함을 극복할 수 있다는 이론적 근거를 마련한 것입니다.

6. Experiments

EGGROLL의 성능을 다양한 분야에서 검증했습니다.
- 순수 정수 사전 학습 (Pure Integer Pretraining): 기존의 역전파로는 학습이 불가능한 `int8` (8비트 정수) 전용 아키텍처인 'EGG' 모델을 제안하고, 이를 밑바닥부터 학습시키는 데 성공했습니다. 이는 미분 불가능한 모델도 학습시킬 수 있는 ES의 강력함을 보여줍니다 .
- 강화학습 (RL): 로봇 제어 등 다양한 RL 환경에서 기존 알고리즘(OpenES, PPO)과 비교했습니다. EGGROLL은 OpenES보다 압도적으로 빠른 학습 속도를 기록하면서도 성능 저하가 없었습니다. 특히 모델이 커질수록 그 효율성 차이는 더 벌어졌습니다 .
- LLM 추론 미세조정:

    - Countdown & GSM8K: 수학 문제를 푸는 태스크에서 EGGROLL은 기존의 지도 학습 방식이나 다른 ES 방식(GRPO 등)보다 뛰어난 성능을 보였습니다.
    - 탐색의 힘: 메모리 효율성 덕분에 EGGROLL은 한 번에 1,024가지의 서로 다른 답변을 생성(탐색)해보고 학습할 수 있었던 반면, 경쟁 알고리즘은 32개 생성에 그쳤습니다. 이 압도적인 탐색 능력(Parallel Generation)이 성능 차이의 핵심 원인이었습니다 .

7. Conclusion

EGGROLL은 그동안 메모리 문제로 불가능하다고 여겨졌던 '거대 모델의 진화적 학습'을 저랭크 섭동이라는 아이디어로 현실화했습니다 .
이 연구는 단순히 기존 모델을 더 빠르게 학습시키는 것을 넘어, 미분이 불가능하거나 구조가 복잡한 차세대 AI 시스템(예: Neuro-symbolic 시스템)을 학습시킬 수 있는 새로운 길을 열었다는 데 큰 의의가 있습니다 . 결론적으로 EGGROLL은 AI 학습의 패러다임을 '역전파 독점'에서 '진화 전략과의 공존'으로 확장시킬 수 있는 중요한 발판을 마련했습니다.

개인적 생각

딥러닝 모델의 크기는 날이 갈수록 거대해지고 있지만, 이를 뒷받침할 GPU 자원은 여전히 한정적입니다. 현재 학습의 표준으로 자리 잡은 Gradient Descent 기반의 학습 방식은 이러한 상황에서 명확한 자원적, 이론적 한계에 직면해 있습니다. 과거의 ES는 막대한 자원 소모와 느린 속도 탓에 실질적인 대안이 되지 못했으나, 본 논문에서 제안한 EGGROLL은 획기적인 저랭크 학습을 통해 더 적은 자원으로도 비약적으로 빠른 속도를 달성하며 이러한 문제를 해결했습니다.

 

무엇보다 EGGROLL은 신경망의 모든 구간이 미분 가능해야 한다는 기존 설계의 제약을 완화하여, 미분이 불가능한 요소가 포함된 모델까지도 학습의 영역으로 확장시켰다는 점에서 큰 의미가 있습니다. 특히 진화 전략을 사용하여 LLM의 End-to-End 학습 파이프라인을 구축한 것은 이번이 처음으로, 이는 학계와 산업계가 매우 주의 깊게 주목해야 할 성과입니다. 또한, 이 논문은 단순한 실험적 성공에 그치지 않고 수렴 속도에 대한 엄밀한 수학적 증명을 통해 단단한 이론적 기반까지 갖추고 있다는 점에서 그 가치가 더욱 빛납니다.

반응형

댓글