Abstract: AI가 뉴스를 읽고 미래를 예측한다: 새로운 시계열 예측 기법
기존의 시계열 예측은 주로 과거의 수치 데이터에만 의존해왔습니다. 주식 가격을 예측할 때 과거 차트만 보거나, 경제 지표를 분석할 때 통계 수치만 활용하는 식이었죠. 하지만 실제 시장은 뉴스와 사회적 사건에 크게 영향을 받습니다. 대통령 선거, 자연재해, 기업 발표 등이 시장을 움직이는 주요 동력이 되곤 하죠.
이번 연구는 이런 한계를 극복하기 위해 대형 언어모델(LLM)을 활용한 새로운 접근법을 제안했습니다. 핵심 아이디어는 AI가 뉴스 기사를 읽고 이해한 다음, 이를 기존의 수치 데이터와 결합해 더 정확한 예측을 만들어내는 것입니다.
시스템의 작동 방식은 다음과 같습니다. 먼저 AI 에이전트가 매일 쏟아지는 뉴스 중에서 예측 대상과 관련된 중요한 기사들을 선별합니다. 그 다음 선별된 뉴스의 내용과 실제 시계열 데이터의 변화 패턴을 연결하여 분석합니다. 특히 예측이 빗나갔을 때는 그 원인을 분석해 뉴스 선별 기준과 예측 로직을 지속적으로 개선해나갑니다.
이 방법의 장점은 예상치 못한 사건이나 사회적 분위기 변화까지 포착할 수 있다는 점입니다. 전통적인 수치 기반 모델로는 감지하기 어려운 돌발 상황이나 트렌드 변화를 뉴스 분석을 통해 미리 파악할 수 있게 된 것이죠.
연구 결과는 상당히 고무적입니다. 뉴스 데이터를 통합한 예측 모델이 기존 방식보다 현저히 높은 정확도를 보였다고 합니다. 이는 비구조화된 텍스트 정보를 효과적으로 활용하면 시계열 예측 분야에 패러다임 변화를 가져올 수 있음을 시사합니다.
앞으로 이런 기술이 발전하면 금융시장 분석, 경제 정책 수립, 기업의 전략적 의사결정 등 다양한 분야에서 더욱 정교한 예측 서비스가 가능해질 것으로 기대됩니다.
1 Introduction: 왜 뉴스가 예측에 중요한가? - 연구 배경과 방법론
기존 예측 방법의 한계
시계열 예측은 경제, 인프라, 사회 전반에서 의사결정의 핵심 도구로 사용되고 있습니다. 기존의 전통적인 예측 방법들은 과거 데이터의 패턴을 찾아내는 데는 뛰어나지만, 중요한 약점이 있었습니다. 시계열 데이터의 분포가 일정하게 유지될 때는 잘 작동하지만, 갑작스런 외부 사건이나 이상 현상이 발생하면 제대로 대응하지 못한다는 것이죠.
예를 들어, 코로나19 팬데믹이나 전쟁 같은 예상치 못한 사건이 일어나면 기존 모델들은 당황하게 됩니다. 이런 복잡한 사회적 사건들이 시계열 데이터 변화에 어떤 영향을 미치는지 체계적으로 연결하지 못하기 때문입니다.
뉴스 데이터의 가치
뉴스 기사는 숫자만으로는 포착할 수 없는 중요한 정보들을 담고 있습니다. 예상치 못한 사건, 정책 변화, 기술 발전, 대중 심리 변화 등이 그것이죠. 뉴스를 예측에 통합하면 인간의 행동과 사회 변화의 복잡성을 더 잘 반영할 수 있게 됩니다.
뉴스의 장점은 두 가지입니다. 첫째, 실시간으로 업데이트되는 정보를 제공해 모델이 최신 상황에 맞춰 예측을 조정할 수 있게 합니다. 둘째, 정성적 데이터로서 비선형적이고 수치화하기 어려운 영향들까지 고려할 수 있게 해줍니다.
새로운 접근법: LLM을 활용한 통합 모델
연구팀은 뉴스와 부가 정보를 시계열 데이터에 텍스트 프롬프트 형태로 임베딩하는 통합 접근법을 제안했습니다. 대형 언어모델을 미세 조정해서 시계열 예측을 "텍스트의 다음 토큰 예측" 문제로 변환한 것이 핵심 아이디어입니다.
사전 훈련된 LLM들이 가진 귀납적 추론 능력과 다중 모달 분포 모델링 능력을 활용하면, 소량의 예시만으로도 시계열 예측이 가능해집니다. 시계열, 뉴스, 부가 정보가 포함된 데이터셋으로 추가 훈련을 거치면, 언어모델이 입력 프롬프트의 텍스트 맥락을 고려한 예측을 생성할 수 있게 됩니다.
똑똑한 뉴스 필터링: LLM 에이전트의 역할
입력 데이터가 다양해질수록 효과적인 뉴스 필터링이 핵심 과제가 됩니다. 단순한 키워드 추출을 넘어서, 뉴스 요소들이 예측 변수와 어떻게 상호작용하는지 깊이 이해해야 합니다.
연구팀은 인간과 유사한 고급 추론 능력을 가진 LLM 에이전트를 사용해 동적이고 효과적인 뉴스 선별을 수행했습니다. 이 에이전트들은 소수의 예시 학습을 통해 시계열 변동에 영향을 미치는 요인들에 대한 인간의 추론을 모방하는 논리적 시나리오를 기반으로 전략을 조정합니다.
더 나아가 LLM 에이전트들은 예측 오류와 관련 사건들을 비교하여 선별 논리를 지속적으로 개선하는 역할도 합니다. 이런 반복적 자기 평가를 통해 이전에 놓쳤던 중요한 뉴스 항목들을 식별하고 통합할 수 있게 됩니다.
연구의 주요 기여
이 연구는 네 가지 주요 기여를 했습니다. 첫째, 비구조화된 뉴스 데이터를 수치 시계열 입력과 통합하는 새로운 예측 프레임워크를 도입했습니다. 둘째, 동적 뉴스 선별과 분석을 위한 LLM 에이전트 활용을 강조했습니다. 셋째, 시계열 데이터와 뉴스 정보를 통합하는 데이터 구축 방법을 제안하고 다중 도메인 데이터셋을 구축했습니다. 넷째, 에너지, 환율, 교통, 비트코인 등 다양한 분야에서 뛰어난 예측 정확도를 달성했다는 실험 결과를 제시했습니다.
특히 에너지 수요 패턴의 복잡성을 다루는 데 있어서 뉴스 통합이 매우 효과적임을 입증했습니다.
2 Related Work: 관련 연구들 - 시계열 예측이 어떻게 발전해왔는가
전통적인 시계열 예측의 발전 과정
초기 시계열 예측은 과거 데이터를 분석해서 통계 모델로 미래 트렌드를 예측하는 방식이었습니다. "과거 패턴이 미래에도 지속될 것"이라는 가정에 기반했죠. 하지만 이런 방법들은 소규모 데이터셋에만 적용 가능했습니다.
딥러닝이 등장하면서 상황이 바뀌었습니다. 다양한 시계열 예측 네트워크들이 개발되어 더 크고 복잡한 데이터셋을 다룰 수 있게 되었고, 역사적 데이터에서 직접 비선형성과 종속성을 포착할 수 있게 되었습니다. 최근에는 대규모 데이터셋으로 사전 훈련한 후 특정 작업에 맞춰 미세 조정하는 방식으로 더 적은 데이터와 자원으로도 좋은 성능을 낼 수 있게 되었습니다.
하지만 여전히 한계가 있었습니다. 이런 방법들은 외부 요인이나 맥락적 요소들의 영향을 제대로 고려하지 못했던 것이죠.
텍스트 정보 통합 시도들
여러 분야에서 텍스트 정보를 시계열 예측에 통합하려는 시도들이 있었습니다. 금융, 에너지, 엔터테인먼트, 팬데믹, 관광업 등에서 트위터 피드, 뉴스 기사, 공공 보고서 등을 활용하려 했죠.
전통적인 방법들은 텍스트 분석을 키워드 빈도 계산이나 더미 변수 사용으로 단순화했습니다. 이런 방식으로는 미묘한 의미를 제대로 포착할 수 없었죠. 좀 더 발전된 시도들은 전통적인 자연어 처리와 머신러닝 방법을 사용해 단어 빈도나 감정 같은 더 풍부한 텍스트 특징을 추출했습니다.
하지만 이런 접근법들도 문제가 있었습니다. 노동 집약적인 특징 엔지니어링이 필요했고, 긴 텍스트의 종속성을 처리하는 데 어려움이 있었으며, 깊은 맥락적 이해가 부족했습니다. 반면 대형 언어모델은 복잡한 텍스트 데이터를 처리하고 맥락적 관계를 이해하는 데 뛰어나서, 자동화된 특징 추출과 여러 작업에 걸친 확장성을 통해 예측 정확도와 효율성을 개선할 수 있습니다.
시계열 예측을 위한 언어모델들
GPT 시리즈나 LLaMa 같은 대형 언어모델들은 다양한 자연어 처리 작업에서 뛰어난 성과를 보였습니다. 방대한 매개변수를 통해 사전 훈련 과정에서 광범위한 일반 지식과 추론 능력을 습득했죠.
최근에는 LLM 아키텍처를 시계열 처리와 예측에 적용하는 연구들이 늘고 있습니다. 예를 들어:
- TEMPO: 동적 시간 표현 학습을 위해 GPT 아키텍처를 적용
- TIME-LLM: 입력 데이터를 재프로그래밍하고 Prompt-as-Prefix 기법을 적용해 시계열 예측에 LLM 활용
- FPT: 고정된 LLM도 자기 주의 메커니즘의 보편성을 활용해 시계열 작업에서 효과적으로 작동할 수 있음을 증명
- Lag-LLaMa: 단변량 확률적 예측을 위한 디코더 전용 트랜스포머 사용
하지만 기존 연구들은 주로 수치 회귀를 위한 LLM의 매핑 능력만 활용했을 뿐, 외부 텍스트 입력을 통합하거나 언어 이해에서 LLM의 추론 능력을 제대로 활용하지는 못했습니다.
언어모델을 활용한 추론
LLM은 "Chain of Thought" 프롬프팅을 통해 인간과 유사한 추론으로 작업을 자동화할 수 있습니다. 인간의 사고를 단계별로 모방해서 추론을 향상시키는 방식이죠. 복잡한 질문을 중간 단계를 거쳐 답변으로 변환하는 데 유용합니다.
"Tree of Thoughts" 접근법은 시행착오 방법을 모방해서 이를 더욱 개선했습니다. LLM 기반 에이전트들은 텍스트로 된 피드백 신호를 반영하고 이를 메모리 버퍼에 보관해서 더 나은 결정을 내릴 수 있습니다.
최근에는 LLM이 문제 해결을 위한 재사용 가능한 도구를 생성하는 프레임워크나, 추론과 행동을 교차시켜 작업 완료를 돕는 방법들도 개발되고 있습니다. 이런 에이전트들은 최종 행동에 도달하기 위해 자신들의 응답과 추론에 대해 토론할 수도 있습니다.
이렇게 관련 연구들을 살펴보면, 이번 논문이 기존 연구들의 한계를 어떻게 극복하려고 했는지 알 수 있습니다. 단순히 수치 데이터만 사용하거나 텍스트를 단순하게 처리하는 것을 넘어서, LLM의 강력한 텍스트 이해와 추론 능력을 시계열 예측에 본격적으로 활용한 것이죠.
3 Method: 연구 방법론 - 뉴스와 시계열을 어떻게 연결할 것인가
해결해야 할 핵심 과제들
이 연구에서 뉴스 인사이트를 시계열 예측에 통합하는 시스템을 개발하면서 여러 도전 과제들에 직면했습니다.
첫 번째 과제는 예측 방법이 비구조화된 비수치적 뉴스 입력을 유연하게 처리하고, 뉴스 사건의 맥락에 따라 예측을 조정해야 한다는 것입니다. 기존의 수치 기반 모델들과는 완전히 다른 접근이 필요했죠.
두 번째는 모델 구축 과정에서 뉴스를 필터링하고 뉴스와 시계열 데이터 간의 연결고리를 찾아야 한다는 점입니다. 인터넷상의 방대한 데이터 중에서 관련성 있는 정보를 골라내려면 깊은 사회적 이해와 정교한 추론 능력이 필요합니다. 단순한 키워드 매칭으로는 해결할 수 없는 복잡한 작업이었습니다.
마지막으로 뉴스 선별이나 추론 과정에서 발생할 수 있는 부정확성이 예측 정확도에 영향을 미칠 수 있어서, 예측 결과를 바탕으로 뉴스 선별과 추론 과정을 지속적으로 개선해야 한다는 과제가 있었습니다.
3단계 모듈 시스템
연구팀은 이런 복잡성을 관리하기 위해 지능형 에이전트를 설계하고, 전체 시스템을 세 개의 주요 모듈로 구성했습니다.
첫 번째 모듈: 언어모델 기반 예측 모듈 뉴스와 시계열 데이터를 함께 처리해서 실제 예측을 수행하는 핵심 엔진입니다. 언어모델의 텍스트 처리 능력을 활용해 뉴스 정보를 이해하고 이를 수치 데이터와 결합해서 예측 결과를 생성합니다.
두 번째 모듈: 뉴스 필터링 및 추론 에이전트 방대한 뉴스 데이터 중에서 예측에 유용한 정보를 선별하고, 선별된 뉴스가 시계열 데이터에 어떤 영향을 미칠지 추론하는 역할을 담당합니다. 이 에이전트는 마치 숙련된 분석가처럼 뉴스의 의미를 파악하고 그것이 예측 대상에 미칠 영향을 판단합니다.
세 번째 모듈: 평가 및 개선 에이전트 예측 모델의 성능을 평가하고 개선점을 찾아내는 역할을 합니다. 예측이 빗나갔을 때 그 원인을 분석해서 뉴스 선별 기준이나 추론 로직을 어떻게 개선해야 할지 판단합니다.
모듈 간의 상호작용
이 세 모듈은 서로 유기적으로 연결되어 작동합니다. 뉴스 필터링 에이전트가 관련 뉴스를 선별하면, 언어모델 기반 예측 모듈이 이를 활용해 예측을 수행합니다. 그 결과를 평가 에이전트가 분석해서 어떤 뉴스가 도움이 되었고 어떤 부분이 개선되어야 하는지 파악합니다. 이런 피드백을 바탕으로 뉴스 필터링 에이전트는 선별 기준을 개선하고, 전체 시스템의 성능이 점진적으로 향상됩니다.
이런 구조를 통해 단순히 뉴스와 시계열 데이터를 기계적으로 결합하는 것이 아니라, 지능적으로 관련성을 판단하고 지속적으로 학습하며 개선하는 시스템을 구축할 수 있었습니다. 마치 인간 분석가가 뉴스를 읽고 시장 상황을 분석하는 과정을 자동화한 것과 같다고 볼 수 있습니다.
3.1 Rethinking Time Series Forecasting Problem and Elements. 시계열 예측을 새롭게 바라보기: 언어모델의 시각으로
시계열 예측 = 텍스트 생성?
연구팀은 시계열 예측을 완전히 새로운 관점에서 접근했습니다. 시계열 예측을 "조건부 시퀀스 생성 문제"로 바라본 것이죠. 이는 대형 언어모델이 사용하는 자연어 처리 패러다임과 정확히 일치합니다.
예를 들어 LLaMa 언어모델을 살펴보면, 숫자 시리즈 {123,456}을 입력받았을 때 이를 개별 토큰들의 시퀀스로 처리합니다: {"1","2","3",",","4","5","6"}. "123"이 주어졌을 때 "456"을 예측하는 확률은 자기회귀 방식으로 다음과 같이 표현됩니다:
P("456"|"123") = P("4"|"123") × P("5"|"4", "123") × P("6"|"45", "123")
즉, 각 단계에서 이전 정보를 바탕으로 다음 토큰을 예측하는 것이죠. 일반적으로 시간 t에서의 시계열 토큰을 xt라고 하면, LLM은 조건부 확률 분포 P(xt+1|x0:t)를 사용해 다음 토큰을 예측합니다.
놀랍게도 사전 훈련된 언어모델들이 시계열 예측에서도 상당한 소수 샷 학습 능력을 보인다는 것이 이미 증명되었습니다. 이는 언어모델이 숫자 토큰을 이해하는 잠재력을 보여주며, 텍스트 프롬프트에 담긴 정보를 시계열 예측에 도입하는 연구의 영감이 되었습니다.
뉴스가 제공하는 맥락의 가치
뉴스 맥락은 전통적인 수치 데이터가 놓치기 쉬운 복잡한 사회적 사건들에 대한 중요한 통찰을 제공합니다. 또한 예상치 못한 사건들로 인한 시계열의 급격한 변화도 반영합니다.
사건 E와 시계열 x0:t가 있다고 가정할 때, 그 사건이 미래 시퀀스에 미치는 영향은 조건부 확률 P(xt+1|x0:t, E)로 표현할 수 있습니다. 하지만 사건 E에 대한 정보가 없다면 과거 시계열로만 예측해야 합니다.
시계열 데이터 자체로도 패턴과 트렌드는 보여줄 수 있지만, 사건 뒤에 숨은 인과관계를 나타내는 능력은 부족합니다. 사건 정보 E는 특정 급등이나 급락이 왜 발생했는지 이해하는 데 필요한 맥락을 제공합니다.
언어모델에서 뉴스 정보 처리하기
언어모델에서는 뉴스 사건도 텍스트 토큰으로 표현할 수 있습니다. 뉴스 텍스트 토큰 집합 {e0, e1, ..., eu}가 사건 E를 나타낸다고 하면, LLM은 이 뉴스 정보를 조건 입력으로 처리해서 조건부 확률 예측 P(xt+1|x0:t, e0:u)를 수행합니다.
e0:u를 포함하면 미래 값 예측에 영향을 미치는 중요한 맥락 정보를 제공할 수 있습니다. 이 과정은 언어모델이 텍스트를 해석하는 표준 접근법과 일치하며, 다양한 뉴스 맥락을 통해 여러 사건에 대한 정보를 동시에 통합해서 예측 정확도를 향상시킬 수 있습니다.
실제로는 프롬프트 엔지니어링 방식으로 뉴스 텍스트를 과거 시계열 데이터와 통합하기만 하면 됩니다.
추가 정보의 활용
날씨나 기후 요인은 에너지 수요와 산업 생산에 영향을 미칠 수 있고, 금융 지표와 경제 지표는 소비자 행동과 기업 운영에 영향을 줍니다. 이런 다양한 정보를 포함하면 모델이 환경적, 경제적, 계절적 변화를 조정해서 예측 정확도를 개선할 수 있습니다.
이런 보충 정보도 조건으로 이해하고 위의 조건부 확률 예측 프레임워크에 통합할 수 있습니다. 예를 들어 "과거 날짜의 날씨: 최저 기온은 292.01도, 최고 기온은 298.07도, 습도는 94%"라는 텍스트로 날씨 조건을 표현할 수 있습니다.
LLM을 시계열 예측에 맞게 미세 조정하기
위의 정보들을 통합해서 LLM이 시계열 예측을 수행할 수 있는 입력을 구성할 수 있습니다. 사전 훈련된 LLM이 어느 정도 시계열 예측을 생성할 수 있지만, 이런 맥락이 풍부한 환경에서 소수 샷 예측에만 의존하는 것은 여러 문제가 있습니다.
첫째, 시계열 출력을 제어하기 어렵습니다. 긴 수치 토큰 시퀀스를 예측하는 것은 LLM에게 일반적이지 않은 작업입니다. 둘째, 뉴스와 보충 정보 및 시계열 간의 연결은 보통 과거 데이터에서 도출되어야 하는데, 이는 LLM을 소수 샷 시계열 예측에 사용하는 일반적인 범위를 넘어섭니다.
따라서 언어모델이 뉴스와 보충 정보의 조건을 고려하면서 더 효과적으로 시계열을 예측할 수 있도록, 조건부 확률을 예측하도록 언어모델을 미세 조정하는 것을 제안했습니다.
연구팀은 과거 시계열 데이터와 해당 뉴스 및 보충 정보를 쌍으로 만들어 텍스트 입력-출력 쌍으로 형식화한 후, 지도 학습 방식으로 LLM을 훈련시켰습니다. 사전 훈련 때와 동일한 손실 함수를 사용했습니다.
미세 조정을 위해서는 LoRA(Low-Rank Adaptation) 방법을 사용했습니다. 이 방법은 매개변수의 작은 부분집합만 업데이트해서 계산 요구사항을 줄이면서도 사전 훈련된 지식의 대부분을 유지합니다. 이런 전략을 통해 모델이 기본적인 강점을 잃지 않으면서도 새로운 예측 작업에 효율적으로 적응할 수 있게 됩니다.
3.2 Analytical Agent for Aggregation and Reasoning of Contextual News Information. 뉴스 분석을 위한 지능형 에이전트 시스템
데이터셋 구축의 핵심 과제
앞서 설명한 모델을 훈련시키기 위해서는 적절한 데이터셋이 필요합니다. 시계열 데이터를 얻는 것은 비교적 간단하지만, 이를 적절한 뉴스 및 보충 정보와 매칭하는 것은 쉽지 않습니다.
인터넷에는 뉴스가 넘쳐나지만, 대부분이 예측하려는 시계열과는 무관합니다. 관련 없는 뉴스를 포함시키면 오히려 예측을 방해할 수 있죠. 따라서 시계열 예측 작업과 뉴스 간의 관련성과 인과관계를 분석해서 적절한 뉴스를 선별하는 것이 중요합니다.
하지만 이런 이해를 얻는 것은 복잡한 일입니다. 인간 사회의 메커니즘에 대한 지식과 논리적 추론 능력이 필요하거든요. 연구팀은 이를 위해 LLM을 활용한 뉴스 필터링과 추론을 제안했습니다.
1단계: 시계열과 뉴스의 기본 매칭
데이터 준비의 초기 단계에서는 시간 빈도, 예측 기간, 지리적 영역을 맞춰서 뉴스를 수집합니다. 이런 동기화를 통해 텍스트 정보의 통찰이 시기적절하고 지역적으로 관련성이 있도록 보장합니다.
예를 들어 2019년부터 2021년까지 호주의 주별 전력 수요를 이해하려면, 호주 각 주의 지역 뉴스와 수요에 직간접적으로 영향을 미칠 수 있는 같은 기간의 국제 뉴스를 수집합니다. 이런 방식으로 잠재적으로 관련된 후보 정보를 먼저 대략적으로 선별할 수 있고, 이런 필터링은 크롤러 수단을 통해 쉽게 완료할 수 있습니다.
2단계: 뉴스 선별을 위한 추론 에이전트
연구팀은 대화, 추론, 반자율 행동 같은 정교한 작업이 가능한 LLM 기반 추론 에이전트를 사용합니다. 이 에이전트는 역할, 지시사항, 권한, 맥락을 정의하는 상세한 프롬프트로 프로그래밍되어, 인간의 명령을 해석하고 복잡한 작업을 수행할 수 있습니다.
이 접근법은 방대한 뉴스 데이터셋을 관련성 있는 기사들의 정제된 선택으로 압축합니다. 추론 능력을 활용해서 뉴스 텍스트를 효과적으로 선별하고, 분류하고, 해석합니다.
3단계 프롬프팅 방법:
- 시계열 영향 요인 이해: 경제적, 정책적, 계절적, 기술적 요인을 고려해서 영향(긍정적/부정적)과 지속기간(단기/장기)에 따라 분류합니다.
- 뉴스 필터링 및 분류: 자동 생성된 로직이나 주어진 추론 로직을 바탕으로 뉴스를 필터링하고 분류합니다. 시계열과의 관련성에 초점을 맞추고 영향(장기/단기)을 분류하며 그 근거를 제시합니다.
- 출력 형식 지정: 선별된 뉴스를 JSON 형식으로 정리하여 요약, 영향 지역, 보도 시간, 근거 등의 세부사항을 포함합니다.
에이전트는 시계열 영향 요인에 대한 이해를 자동으로 개발할 수 있으며, 모델에서 미리 정의된 추론 로직을 제공할 수도 있습니다. 자동화된 과정에서 에이전트는 다양한 유형의 뉴스가 특정 도메인에 어떤 영향을 미치는지 결정하도록 안내하는 프롬프트를 통해 자체 로직을 형성합니다.
3단계: 추론 업데이트를 위한 평가 에이전트
뉴스 필터링의 효과를 평가하고 개선하기 위한 평가 에이전트도 설계했습니다. 추론 에이전트에만 의존해서 뉴스를 선별하는 것은 최적이 아닙니다. 뉴스와 시계열 간의 상호작용이 복잡하기 때문이죠.
추론 에이전트는 뉴스 내용의 관점에서만 다양한 뉴스의 잠재적 영향을 분석할 수 있을 뿐, 그것을 바탕으로 훈련된 시계열 예측 모델이 정확한 예측을 할 수 있는지는 알 수 없습니다.
평가 에이전트는 시계열 예측 모델이 훈련된 후에 배포됩니다. 단순한 예측 정확도의 수치적 평가를 넘어서, 인간과 유사한 논리적 추론을 통합해서 뉴스 선별 로직 체인을 개선합니다.
평가 에이전트의 3단계 구조:
- 평가 단계 생성: 예측 작업 유형, 시간 범위, 배경 정보를 입력받아 예측 결과를 평가하는 단계들을 생성합니다.
- 오류 분석: 실제 값, 예측값과 실제 시리즈 간의 차이, 선별된 뉴스와 과거 뉴스를 제공받아 시간에 따른 예측 오류 분포를 바탕으로 놓친 뉴스를 식별합니다.
- 로직 업데이트: 분석을 바탕으로 업데이트된 로직을 생성해서 향후 뉴스 선별을 안내합니다.
모든 검증 세트 예측을 처리한 후, 추론 에이전트는 업데이트된 로직을 응집력 있는 최종 전략으로 통합합니다.
이런 방식으로 시스템은 단순히 뉴스를 선별하는 것에서 그치지 않고, 예측 결과를 통해 지속적으로 학습하고 개선하는 지능형 시스템이 됩니다. 마치 숙련된 분석가가 자신의 예측이 틀렸을 때 그 원인을 분석해서 다음번에는 더 나은 판단을 하는 것과 같은 과정이죠.
3.3 Overall Pipeline 전체 파이프라인: 지속적 학습과 개선 시스템
통합된 학습 사이클
연구팀은 뉴스 추론 에이전트와 평가 에이전트를 LLM 예측 모델의 미세 조정과 통합하여 훈련 데이터의 품질을 지속적으로 향상시키는 시스템을 구축했습니다. 이는 단순히 한 번 훈련하고 끝나는 것이 아니라, 반복적으로 개선되는 학습 파이프라인입니다.
단계별 작동 과정
1단계: 초기 로직 설정 첫 번째 반복에서 LLM 에이전트는 시계열 작업의 도메인과 시점을 기반으로 뉴스 선별 로직을 설정합니다. 이는 마치 숙련된 분석가가 "이런 종류의 데이터를 예측할 때는 이런 뉴스들을 봐야겠다"라고 판단하는 것과 같습니다.
2단계: 뉴스 필터링 및 초기 훈련 설정된 로직에 따라 추론 에이전트가 관련 뉴스를 필터링하고, 이를 시계열 데이터와 정렬하여 모델에 입력해서 초기 미세 조정을 수행합니다.
3단계: 검증 및 피드백 각 반복마다 훈련 데이터에서 무작위로 추출한 검증 세트로 모델의 예측을 검증합니다. 평가 에이전트는 예측에 영향을 미쳤을 수 있는 누락된 뉴스가 있는지 확인합니다. "왜 이 예측이 틀렸을까? 혹시 놓친 중요한 뉴스가 있을까?"라는 질문에 답하는 과정이죠.
4단계: 로직 개선 평가 에이전트의 피드백을 통해 추론 에이전트는 다음 반복에서 필터링 로직을 개선합니다. 예를 들어, 특정 유형의 뉴스가 예상보다 큰 영향을 미쳤다면 다음번에는 그런 뉴스에 더 주목하도록 조정하는 것입니다.
5단계: 최종 통합 이런 사이클이 계속되다가 최종 반복에서 추론 에이전트는 모든 업데이트를 통합하여 최종 모델 훈련을 위한 확정적인 뉴스 필터를 생성합니다.
지속적 개선의 핵심
이 파이프라인의 핵심은 지속적 학습과 자기 개선입니다. 시스템이 실수를 통해 배우고, 그 학습을 다음 단계에 적용하는 것이죠. 이는 다음과 같은 장점을 제공합니다:
- 적응성: 새로운 패턴이나 예상치 못한 사건들에 대응할 수 있게 됩니다
- 정확성 향상: 반복을 통해 점진적으로 예측 정확도가 개선됩니다
- 견고성: 초기에 놓쳤던 중요한 요소들을 나중에 포착할 수 있습니다
기술적 구현
연구팀은 위에서 설명한 모든 에이전트에 GPT-4 Turbo 모델을 사용했습니다. 이는 복잡한 추론과 분석 작업을 수행하기에 충분한 성능을 제공하기 때문입니다.
결국 이 시스템은 인간 전문가가 경험을 통해 점점 더 정확한 판단을 하게 되는 과정을 자동화한 것이라고 볼 수 있습니다. 처음에는 서툴렀던 분석가가 실수를 통해 배우고, 점점 더 정교한 판단 기준을 개발해나가는 것처럼, 이 시스템도 반복을 통해 더 나은 뉴스 선별과 예측 능력을 갖추게 됩니다.
4 Experiments
4.1 Data preparation 실험 데이터 준비: 현실 세계의 복잡성을 담다
시계열 데이터 선정 기준
연구팀은 인간 활동과 사회적 사건에 영향을 받는 도메인의 시계열 데이터를 선택했습니다. 이는 예측 과정에서 복잡한 인간 중심 역학을 포착하는 방법의 능력을 테스트하기 위해서입니다.
선택된 네 가지 도메인은 다음과 같습니다:
교통 (Traffic): 교통량 데이터로, 사회적 이벤트나 정책 변화가 직접적으로 영향을 미치는 영역입니다. 예를 들어 대형 행사나 파업, 날씨 변화 등이 교통 패턴을 크게 바꿀 수 있죠.
환율 (Exchange): 환율 데이터는 경제 뉴스, 정치적 사건, 중앙은행 정책 등에 매우 민감하게 반응합니다. 한 나라의 대통령 발언 하나로도 환율이 요동칠 수 있는 대표적인 사례입니다.
비트코인 (Bitcoin): 암호화폐 가격은 규제 뉴스, 기업의 암호화폐 채택 발표, 유명인사의 언급 등에 극도로 민감합니다. 뉴스의 영향을 가장 직접적으로 받는 데이터 중 하나죠.
전력 (Electricity): 호주 전력 수요 데이터로, 날씨, 경제 활동, 정책 변화 등 다양한 요인의 영향을 받습니다.
데이터 업데이트를 통한 편향 방지
사전 훈련된 언어모델의 편향을 피하기 위해 환율과 전력 데이터셋을 2022년까지 업데이트했습니다. 이는 모델이 이미 학습한 패턴에 의존하지 않고 실제로 뉴스 정보를 활용하는지 확인하기 위한 조치입니다.
구체적으로는 호주 에너지 시장 운영자(AEMO)에서 30분 단위 전력 수요 데이터를, Exchange Rates API에서 일일 환율 데이터를 수집했습니다. 이런 데이터들은 일별, 시간별, 30분별 등 다양한 빈도를 가져서 서로 다른 시간 해상도에서 알고리즘의 효과를 평가할 수 있게 해줍니다.
뉴스 데이터 수집의 어려움과 해결책
시계열 데이터와 뉴스 이벤트를 짝지은 공개 데이터셋이 없어서, 연구팀은 위의 시계열을 위한 뉴스를 직접 수집해야 했습니다. 이는 상당히 도전적인 작업이었죠.
GDELT 데이터베이스 활용: 일부 뉴스 콘텐츠는 GDELT 데이터셋에서 수집했습니다. GDELT는 거의 모든 국가의 뉴스를 100개 이상의 언어로 추적하는 데이터베이스로, 사회적, 정치적, 경제적 사건에 대한 실시간 통찰을 제공합니다. 이를 통해 글로벌 트렌드와 그 영향을 상세히 분석할 수 있었습니다.
실시간 뉴스 수집: 최신 정보가 필요한 도메인의 경우, News Corp Australia나 Yahoo Finance 같은 소스에서 실시간 뉴스를 수집했습니다. 지역별, 작업별 활동에 초점을 맞춘 맞춤형 수집이었죠.
보충 정보로 맥락 풍부하게 만들기
예측 모델의 정확도와 맥락을 개선하기 위해 다양한 오픈소스 도구를 활용해 추가 데이터를 수집했습니다.
날씨 정보: OpenWeatherMap을 통해 일일 기온, 대기압, 풍속, 습도 등을 수집했습니다. 특히 전력 수요 예측에서는 날씨가 결정적인 요인이 되기 때문에 중요했습니다.
달력 정보: Python의 datetime과 holidays 패키지를 사용해 달력 날짜를 얻어 계절적, 주기적 효과를 고려했습니다. 휴일이나 특별한 날짜들이 시계열에 미치는 영향을 포착하기 위해서죠.
경제 지표: pandas_datareader 라이브러리를 사용해 연방준비제도, 세계은행, 국제 금융시장 등에서 GDP, 인플레이션율, 고용 통계 같은 데이터에 접근했습니다.
이런 종합적인 데이터 준비 과정을 통해 연구팀은 단순히 숫자만으로는 설명할 수 없는 현실 세계의 복잡성을 모델에 반영할 수 있었습니다. 마치 숙련된 분석가가 차트만 보는 것이 아니라 뉴스, 날씨, 경제 상황 등을 종합적으로 고려해서 판단하는 것과 같은 접근법이었죠.
4.2 Results 실험 결과: 뉴스가 예측을 얼마나 개선했을까?
뉴스 통합의 효과성 검증
연구팀은 뉴스와 보충 정보를 시계열 예측에 통합하는 것이 실제로 도움이 되는지 확인하기 위해 네 가지 다른 시나리오로 실험을 진행했습니다.
1. 순수 수치 토큰: 뉴스 없이 수치 토큰만 사용하는 기본 방식입니다. 지역명이나 날짜 정보를 제외하고는 다른 텍스트 토큰을 배제한 비교 기준선이죠.
2. 텍스트 설명문 토큰: 원시 숫자 대신 문장 형태의 설명을 사용하는 것이 정확도를 향상시키는지 평가했습니다. 아직 뉴스 통합은 포함되지 않았습니다.
3. 필터링되지 않은 뉴스 + 텍스트 설명문: 시계열의 설명문과 필터링되지 않은 뉴스 데이터를 통합했을 때 모델 성능에 미치는 영향을 평가했습니다.
4. 필터링된 뉴스 + 텍스트 설명문: 제안된 에이전트에 의해 관련성을 기준으로 특별히 필터링된 뉴스와 설명문을 통합한 효과를 보여줍니다.
놀라운 결과: 필터링이 핵심
실험 결과는 매우 흥미로웠습니다. 모든 도메인에서 필터링된 뉴스를 사용한 경우가 가장 좋은 성능을 보였습니다. 예를 들어:
- 전력 도메인: RMSE가 337.10에서 280.39로 대폭 개선
- 환율 도메인: RMSE가 7.80×10³에서 6.46×10³으로 향상
- 교통 도메인: RMSE가 4.55×10²에서 4.22×10²로 개선
- 비트코인 도메인: RMSE가 4.46×10⁻³에서 3.67×10⁻³으로 향상
하지만 필터링되지 않은 뉴스를 사용한 경우는 오히려 성능이 악화되었습니다. 이는 두 가지 주요 이유 때문입니다:
- 토큰 과부하: 대량의 뉴스 항목이 너무 많은 토큰을 도입해서 LLM의 성능을 저하시킵니다.
- 노이즈 효과: 관련 없는 뉴스가 잘못된 인과 정보를 도입해서 예측을 오도합니다.
평가 에이전트의 효과성
평가 에이전트를 통한 반복적 개선 과정도 검증했습니다. 대부분의 경우 2회 반복으로도 상당한 개선을 달성할 수 있었고, 여러 번의 반복이 단일 반복보다 일관되게 더 나은 결과를 가져왔습니다.
예를 들어 전력 도메인에서:
- 1차 선별: RMSE 313.89
- 2차 선별: RMSE 287.35 (대폭 개선)
- 4차 선별: RMSE 280.39 (최종적으로 가장 좋은 결과)
이는 반성 메커니즘을 통한 지속적 학습이 실제로 작동한다는 것을 보여줍니다.
기존 방법들과의 비교
연구팀의 방법을 기존 시계열 예측 기법들과 비교한 결과, 특히 뉴스의 영향이 큰 도메인에서 뛰어난 성능을 보였습니다:
- 전력 수요: 대부분의 지표에서 최고 성능 달성
- 환율: 거의 모든 지표에서 최고 또는 두 번째 성능
- 비트코인: 여러 지표에서 우수한 성능
도메인별 차이: 교통 데이터의 특수성
흥미롭게도 교통 분야에서는 뉴스 통합 효과가 상대적으로 제한적이었습니다. 이는 몇 가지 이유 때문입니다:
- 지역성 문제: 캘리포니아 전체 도로를 다루는 교통 예측 모델인데, 공개적으로 사용 가능한 뉴스 데이터는 지역적 세부사항이 부족했습니다.
- 스케일 미스매치: 교통 데이터는 특정 도로의 교통 흐름을 반영하는데, 뉴스 소스는 대부분 지역적 또는 글로벌 수준이어서 지역화된 교통 상황을 적절히 포착하지 못했습니다.
- 보고 격차: 주 단위 뉴스에서는 교통 급증 상황을 자주 보도하지 않아서, 이상치에 민감한 MSE 지표에서 오류가 과장되었습니다.
실제 사례: 전력 수요 예측
전력 도메인을 예시로 한 시각화 결과에서는 뉴스가 포함된 예측이 실제 값에 더 가까웠습니다. 특히 급작스러운 사건이 전력 수요에 크게 영향을 미치는 중요한 시점에서 그 차이가 뚜렷했습니다.
이 결과들은 적절히 필터링된 뉴스 정보가 시계열 예측에 실질적인 도움을 준다는 것을 명확히 보여줍니다. 하지만 단순히 더 많은 정보를 넣는다고 좋아지는 것이 아니라, 지능적인 선별과 관련성 판단이 핵심이라는 점도 확인되었습니다.
5 Conclusion and Discussion
연구의 핵심 성과
이 연구는 LLM 기반 예측 방법과 LLM 기반 에이전트를 사용해서 뉴스를 시계열 예측에 통합하는 것의 이점을 명확히 보여주었습니다. 개발된 에이전트들은 놓친 뉴스를 자율적으로 식별하고 해결하며, 로직을 개선하고, 사건이 예측에 미치는 영향을 평가함으로써 모델의 지능을 향상시켰습니다.
연구 결과는 광범위한 도메인 지식을 통합하여 더욱 미묘하고 맥락을 인식하는 예측으로의 전환을 옹호합니다. 이런 접근법은 현실 세계 역학과 일치하는 적응적이고 포괄적인 예측을 위해 시계열 예측을 풍부하게 만듭니다.
접근법의 한계들
1. 적용 도메인의 제한성
뉴스 통합의 효과는 주로 인간과 시장 활동이 트렌드에 크게 영향을 미치는 도메인에서 나타납니다. 이 프레임워크는 정밀한 기상 모델링이 필요하거나 인간 활동의 영향이 최소한인 기상학적 또는 물리적 데이터 같은 도메인에는 덜 적합합니다.
2. 기술적 제약
모델은 사전 훈련된 LLM의 최대 토큰 길이에 제약을 받습니다. 이는 대량의 시계열이나 여러 시퀀스를 동시에 처리하는 것을 복잡하게 만들어, 데이터 절단이 발생하고 장기 예측의 정확도에 영향을 미칠 수 있습니다.
3. 보완적 역할
이 전략은 모든 분야의 분류나 보간 같은 전통적인 시계열 작업을 완전히 대체하기보다는 향상시키는 역할을 합니다. 언어모델을 활용해서 유용한 텍스트 정보를 통합하여 시계열 예측 작업을 개선할 수 있음을 보여주는 것이 목표였습니다.
실제 사례: 전력 수요 예측 결과
연구팀이 제시한 호주 일일 전력 수요 예측 사례들은 뉴스 통합의 효과를 명확히 보여줍니다:
(a) 시드니 봉쇄 효과: "시드니 봉쇄로 단기 상업 및 산업 에너지 사용 감소 예상"이라는 뉴스를 통합했을 때, 뉴스 없는 예측보다 실제 값에 훨씬 가까운 결과를 얻었습니다.
(b) 주거용 전력 소비 행동: "주거용 전력 사용 증가로 피크 시간대 전력 부하 상승"이라는 뉴스가 예측 정확도를 크게 개선했습니다.
(c) 예상 정전 효과: "정전으로 인한 전력 부하 감소 예상"이라는 뉴스를 통해 급격한 수요 변화를 정확히 예측할 수 있었습니다.
미래 연구 방향
1. 뉴스 콘텐츠 기여도 분석
향후 개선 사항은 모델에서 사용된 뉴스 콘텐츠의 기여도 분석에 초점을 맞출 예정입니다. 어떤 요인이 예측 정확도에 가장 크게 영향을 미치는지 정확히 파악해서 뉴스 통합 과정을 최적화하는 것이죠.
2. 고급 분석 도구 제공
추론 에이전트에게 고급 분석 도구키트를 제공해서 정교한 데이터 처리와 복잡한 분석 기법의 실시간 적용을 가능하게 할 계획입니다.
3. 적용 범위 확장
이런 발전은 시계열 예측 모델의 정밀도와 관련성을 향상시켜 더 깊은 맥락적 통찰을 제공하고 예측 분석 분야에서의 적용 가능성을 확장할 것입니다.
사회적 영향과 윤리적 고려사항
편향성과 신뢰성 문제
뉴스 콘텐츠 사용이 편향을 영속화하거나 여론에 부정적 영향을 미치지 않도록 철저한 검토를 수행하는 것이 윤리적으로 중요합니다. 잘못된 정보와 관련된 위험을 피하기 위해 정확성과 균형성에 대한 엄격한 검사를 구현해야 합니다.
가짜 뉴스 대응
"가짜 뉴스"의 확산 가능성은 모델이 통합 전에 정보 신뢰성을 검증하는 정교한 메커니즘을 통합해야 할 필요성을 강조합니다.
확장 가능성
이 접근법은 GDP 트렌드 예측, 탄소 배출 분석, 공중 보건 결과 예측 등으로 확장될 수 있는 역량을 가지고 있으며, 각각은 정책 수립과 공공 복지에 중요한 함의를 가집니다.
최종 결론!
이 연구는 예측 분석 향상에 상당한 이점을 제공하지만, 동시에 이런 역량을 책임감 있게 다뤄야 할 의무도 부여합니다. 경제 계획, 환경 전략, 다양한 도메인에서의 정보에 기반한 의사결정에 긍정적인 영향을 미치도록 보장해야 합니다.
결국 이 연구는 단순히 기술적 성과를 넘어서, AI가 현실 세계의 복잡성을 이해하고 반영하는 새로운 패러다임을 제시했다고 볼 수 있습니다. 숫자만으로는 설명할 수 없는 인간 사회의 역동성을 AI가 이해하고 활용할 수 있게 된 것입니다.
직접 구현해볼 예정입니다 화이팅!
댓글