본문 바로가기
반응형

전체 글301

[나는 리뷰어다] 파이썬으로 웹 크롤러 만들기(3판) "한빛미디어 서평단 활동을 위해서 책을 협찬받아 작성된 서평입니다."🖋 한줄평AI 시대, 경쟁력을 확보를 위한 데이터 수집 실전 무기를 갖출 수 있는 책✔ 왜 웹 크롤러를 만들어야 하는가?오늘날 우리는 수많은 정보가 웹에 존재하는 시대에 살고 있습니다. 하지만 웹사이트를 하나하나 직접 브라우저로 열어보는 방식만으로는 이렇게 방대한 데이터를 제대로 활용하기가 쉽지 않죠. 이럴 때 큰 도움이 되는 것이 바로 웹 스크레이핑입니다. 웹 스크레이핑은 원하는 정보를 빠르고 효율적으로 수집할 수 있게 도와주는 아주 강력한 도구예요.웹 스크레이핑이란, 웹 여기저기에 흩어져 있는 데이터를 자동으로 모으고, 이를 우리가 활용할 수 있도록 정리해주는 기술입니다. 사람이 직접 하나하나 페이지를 넘기며 데이터를 복사·붙여넣.. 2025. 3. 28.
Native Sparse Attention: Hardware-Aligned and NativelyTrainable Sparse Attention 원문: https://arxiv.org/pdf/2502.11089  Introduction - 긴 문맥 모델링의 중요성최근 연구에서는 긴 문맥(long-context) 처리 능력이 차세대 대형 언어 모델(LLM)에서 매우 중요한 요소로 떠오르고 있음• 복잡한 문제 해결과 심층 추론 (예: DeepSeek-AI, 2025) • 긴 코드베이스를 한 번에 처리하는 코드 생성 (예: Zhang et al., 2023) • 수많은 대화를 주고받는 AI 에이전트 시스템 (예: Park et al., 2023)최근 등장한 OpenAI o-series, DeepSeek-R1, Gemini 1.5 Pro 같은 모델들은 ✅ 긴 문서나 코드베이스를 한 번에 처리하고 ✅ 수천 개의 단어가 포함된 대화를 이해하며 ✅ 문맥을 유.. 2025. 3. 23.
Slim attention: cut your context memory in half withoutloss of accuracy — K-cache is all you need for MHA 원문: https://arxiv.org/pdf/2503.05840 이 논문에서는 Transformer 모델의 Slim attention이라는 새로운 attention 메커니즘을 제안한다. Slim attention은 Multi-Head Attention (MHA)에서 context memory 크기를 절반으로 줄여 inference 속도를 향상시킨다. 핵심 아이디어는 value (V) projection을 key (K) projection으로부터 계산하여 KV-cache 크기를 줄이는 것이다. 이 방법은 수학적으로 동일하므로 모델 정확도를 손상시키지 않으며, 특히 긴 context를 처리하는 데 효율적이다. 또한, Slim attention은 encoder-decoder 구조에서 context memor.. 2025. 3. 16.
TinyTroupe 라이브러리 실험 TinyTroupe 세 줄 요약github: https://github.com/microsoft/TinyTroupeTinyTroupe는 AI 기반의 다중 에이전트 시뮬레이션 라이브러리로, 사용자가 특정 개인성과 목표를 가진 인공 에이전트인 `TinyPerson`을 생성하여 다양한 비즈니스 시나리오를 실험할 수 있도록 돕는다. 이 도구는 상상력 향상과 소비자 행동 이해를 목표로 하며, 광고 평가, 소프트웨어 테스트, 제품 관리 등 여러 분야에서 활용될 수 있다. TinyTroupe는 연구 및 실험 목적으로 개발되었으며, 사용자 피드백을 통해 지속적으로 발전할 예정이다. TinyTroupe 개요- TinyTroupe는 특정 성격, 관심사, 목표를 가진 사람들을 시뮬레이션할 수 있는 실험적인 Python 라이.. 2025. 3. 9.
[나는 리뷰어다] 로우코드 AI "한빛미디어 서평단 활동을 위해서 책을 협찬받아 작성된 서평입니다."🖋 한줄평복잡한 코드와 수학적 개념에 장벽을 느끼는 초보자들에게 장벽을 허물고 문을 찾아주는 책✔ 코딩 없이도 AI를 적용할 수 있나요?'로우코드AI'는 "코딩 없이도 AI를 적용할 수 있나요?"라는 질문을 하는 사람에게 확실하게 '네!'라고 답하면서 건넬 수 있는 책인 것 같습니다. 이 책의 가장 큰 강점은 AI와 머신러닝을 비전공자도 이해하고 활용할 수 있도록 실용적인 관점에서 접근한다는 점입니다. AutoML, BigQuery ML, Vertex AI 등 로우코드/노코드 툴들을 중심으로 설명하면서, 코딩에 대한 두려움이나 이론적 배경 없이도 AI 모델을 개발할 수 있는 방법을 소개하고 있습니다.✔ 책의 구성1장에서는 머신러닝의 .. 2025. 2. 28.
MLGym: A New Framework and Benchmarkfor Advancing AI Research Agents 원문: https://arxiv.org/pdf/2502.14499 이 논문에서는 MLGym와 MLGym-Bench라는 새로운 프레임워크를 소개하며 인공지능 에이전트의 성능을 평가하고 발전시키기 위한 기준을 제공합니다. MLGym-bench는 컴퓨터 비전, 자연어 처리, 강화 학습, 게임 이론 등 다양한 분야에서 13개의 다채롭고 개방형인 AI 연구 과제로 구성됩니다. 이러한 과제들을 해결하기 위해서는 새로운 아이디어와 가설의 생성, 데이터 생성 및 처리, ML 기법 구현, 모델 학습, 실험 수행, 결과 분석, 그리고 반복적인 개선과정 등 실제 AI 연구에서 요구되는 다양한 역량이 필요합니다.논문에서는 Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, Gem.. 2025. 2. 23.
Text2SQL is Not Enough: Unifying AI and Databases with TAG 원문: https://arxiv.org/pdf/2408.14717 1. 자연어 질의 처리의 한계와 새로운 접근 필요성기존의 Text2SQL과 RAG 방법은 사용자의 복잡한 자연어 질문을 처리하는 데 한계가 있다. 실제 사용자들은 도메인 지식, 세계 지식, 정확한 계산, 의미적 추론이 결합된 복잡한 질문을 하는 경향이 있다. 언어 모델(LM)은 텍스트 데이터에 대한 의미적 추론 능력을 제공하여 감성 분석이나 트렌드 요약과 같은 복잡한 작업을 수행할 수 있다. LM은 모델 학습 중 획득한 암묵적 세계 지식을 활용하여 데이터베이스 스키마에 명시적으로 포함되지 않은 정보를 보완할 수 있다. 데이터베이스와 LM의 장점을 효과적으로 결합한 새로운 시스템이 필요하며, 이는 사용자가 데이터를 이해하는 방식을 혁신할 잠.. 2025. 2. 9.
Critique Fine-Tuning:Learning to Critique is More Effective than Learning to Imitate 원문: https://arxiv.org/pdf/2501.17703Abstract 기존의 Supervised Fine-Tuning(SFT)은 모델이 주어진 주석 응답을 그대로 모방하도록 훈련합니다.본 논문은 Critique Fine-Tuning(CFT)을 제안하여, 모델이 노이즈가 포함된 응답에 대해 비판을 수행하도록 학습시킵니다.CFT는 인간의 비판적 사고를 모방하여 보다 깊은 분석과 미묘한 이해를 유도합니다.WebInstruct 데이터셋 50K 샘플을 사용해 GPT-4o가 생성한 비판을 기반으로 학습하며, 수학 관련 벤치마크에서 SFT 대비 4–10% 향상된 성능을 보였습니다.또한, Qwen2.5-Math-CFT 모델은 단 1시간의 훈련으로 2M 샘플 기반의 경쟁 모델과 동등하거나 더 나은 성능을 달성.. 2025. 2. 2.
반응형