본문 바로가기
반응형

전체 글301

[밑시딥2] CHAPTER 6 게이트가 추가된 RNN Blessed are the forgetful: for they get the better even of their blunders.망각은 더 나은 전진을 낳는다 - 니체 RNN -> 장기 기억을 못한다. 그래서 나온 것들이 LSTM, GRU.가끔 RNN이라고 말하면 LSTM이나 GRU같은 RNN 계열을 가리키는 경우도 있어서, 그냥 RNN을 말할때는 바닐라 RNN 혹은 기본 RNN 이라고 하기도 한다.LSTM, GRU에는 기본 RNN에 게이트가 추가된다. 이 게이트 덕분에 장기기억을 할 수 있게 된다. 6.1  RNN의 문제점왜 기본 RNN은 장기 기억을 못할까? 원인은 기울기 소실 혹은 기울기 폭발 때문!6.1.1 RNN 복습  시계열 데이터 xt를 입력하면 ht가 출력되고, 이 ht가  RNN계층의.. 2024. 7. 29.
[나는 리뷰어다] 실무로 통하는 타입스크립트 "한빛미디어  활동을 위해서 책을 제공받아 작성된 서평입니다."TypeScript는 최근 개발 생태계에서 주목받고 있는 정적 타입 언어입니다. 많은 개발자들이 관심을 가지고 있지만, 진입 장벽에 대한 우려가 있었습니다. 저 또한 관심만 있고 어떻게 시작해야 할지 막막했는데요. 해당 책 "실무로 통하는 타입스크립트"는 그러한 고민을 해소하며, TypeScript와 JavaScript의 복잡한 관계를 명확히 설명하고 실무 적용 가능한 인사이트를 제공하고 있습니다.이 책의 가장 큰 강점은 실용성에 있다고 생각합니다. 기본 개념부터 고급 주제까지 총 105개의 실용적인 레시피를 통해 TypeScript를 체계적으로 학습할 수 있습니다. 특히 Type Assertion, Generics, 그리고 React와 같은.. 2024. 7. 28.
[밑시딥2] CHAPTER 4 4.1 word2vec 개선 1어휘가 100만개가 된다면?게산 병목이 생긴다- 입력층 원핫 표현과 가중치 행렬 Win 곱 -> 4.1- 은닉층과 가중치 행렬 Wout 곱, softmax 계산 -> 4.24.1.1 Embedding 계층위 작업에서 결국 하는 것은 특정 행을 추출하는 것. -> 단어에 해당하는 행을 추출하기만 하면 된다. 이 계층을 임베딩 계층이라고 부른다.4.1.2 Embedding 계층 구현행렬에서 특정 행을 추출하기: W[2] , W[5]class Embedding: def __init__(self, W): self.params = [W] self.grads = [np.zeros_like(W)] self.idx = None def for.. 2024. 7. 15.
FlashAttention-3:Fast and Accurate Attention with Asynchrony and Low-precision 논문 원문: https://tridao.me/publications/flash3/flash3.pdf AbstractTransformer 아키텍처의 핵심 요소인 "어텐션"에 관한 내용으로, 이는 대규모 언어 모델과 긴 문맥 처리 애플리케이션에서 성능의 병목 현상을 일으킬 수 있습니다. FlashAttention은 GPU에서 어텐션을 가속화하기 위해 메모리 읽기/쓰기를 최소화하는 방법을 제시했지만, 최신 하드웨어의 새로운 기능을 완전히 활용하지 못하고 있습니다. 예를 들어, FlashAttention-2는 H100 GPU에서 35%의 활용도에 그칩니다.우리는 Hopper GPU에서 어텐션을 가속화하기 위해 세 가지 주요 기술을 개발했습니다:1. 텐서 코어와 TMA의 비동기성을 활용하여 전체 계산과 데이터 이.. 2024. 7. 14.
Designing a Dashboard forTransparency and Control of Conversational AI 논문 원문: https://arxiv.org/pdf/2406.07882Abstract대화형 언어 모델(Conversational LLMs)은 블랙박스 시스템으로 작동하여 사용자에게 왜 특정 출력이 나오는지 추측하게 만듭니다. 이러한 투명성 부족은 편향성과 진실성에 대한 우려를 증가시키며, 이는 잠재적으로 문제가 될 수 있습니다. 이러한 문제를 해결하기 위해 우리는 해석 가능성 기법과 사용자 경험 디자인을 연결하여 챗봇을 보다 투명하게 만드는 엔드 투 엔드 프로토타입을 제시합니다.우선, 저명한 오픈 소스 언어 모델이 "사용자 모델"을 가지고 있다는 증거를 보여줍니다. 시스템의 내부 상태를 조사하여 사용자의 나이, 성별, 교육 수준, 사회경제적 상태와 관련된 데이터를 추출할 수 있음을 확인했습니다. 다음으로.. 2024. 7. 7.
Using Machine Learning and Smartphone and Smartwatch Data to Detect Emotional States and Transitions: Exploratory Study 논문 원문: https://mhealth.jmir.org/2020/9/e17818/ Using Machine Learning and Smartphone and Smartwatch Data to Detect Emotional States and Transitions: Exploratory StudyIntroduction The emotional states of individuals may change frequently over time. Research has demonstrated the potential of recording daily emotional states and moods in health and well-being, including the early diagnosis of menta.. 2024. 6. 30.
[나는 리뷰어다] 러닝 깃허브 액션 "한빛미디어  활동을 위해서 책을 제공받아 작성된 서평입니다." 여러 프로젝트를 경험하면서 어떤 시스템을 구축하는 것 또한 중요하지만, 구축 후에 시스템을 유지보수하고, 운영해 나가는 게 더 중요하다는 것을 뼈저리게 느끼게 되죠. 아마 현업에 있는 모든 분이 공감하실 텐데요.특히 코드의 변경이 있는 경우 문서관리나 CI/CD 쪽은 여간 복잡하고 귀찮은 일이 아니어서 지금까지 많은 툴과 방법론들이 개발되어 온 것으로 알고 있습니다. 여전히 발전할 가능성이 아주 많은 분야인 듯합니다.그러나 깃헙의 액션 기능이 생기면서 그래도 훨씬 더 편리하게 CI/CD를 진행할 수 있을 것 같습니다. 솔직히 Github에 있던 정체 모를 action 아이콘에 대해 궁금하긴 했었지만 깊이 공부해 볼 생각이 없었거든요.그런데 .. 2024. 6. 23.
Mastering Customer Segmentation with LLM 원본 링크: https://towardsdatascience.com/mastering-customer-segmentation-with-llm-3d9008235f41#3a33 Mastering Customer Segmentation with LLMUnlock advanced customer segmentation techniques using LLMs, and improve your clustering models with advanced techniquestowardsdatascience.comIntro고객 세분화 태스크는 여러 가지 방법으로 접근할 수 있습니다. 이 글에서는 클러스터를 정의하는 것뿐만 아니라 결과를 분석하는 고급 기법을 알려드리겠습니다. 이를 통해 클러스터링 문제를 해결할 수 있는 여러.. 2024. 6. 16.
반응형