전체 글54 시각적 이해를 위한 머신러닝 1~2강 (Machine learning for Visual Understanding) 본 강의는 유튜브에 올라와 있는 "시각적 이해를 위한 머신러닝"이라는 서울대 데이터 사이언스 대학원(GSDS) 강의를 보고 정리한 글입니다. 대학원을 다니지 않고도 이렇게 좋은 강의를 들을 수 있어서 강의를 공유해주신 이준석 교수님께도 너무 감사합니다... 1강은 사실 강의 소개 및 개요들을 주로 다루다 보니까 내용이 별로 없어서 2강까지 합쳐서 정리했고 기본적으로 이전에 공부한 내용들이라 간략하게 메모용으로만 정리했습니다. 1강. Course Introduction & Introduction to Computer Vision Visual Understanding이란? 픽셀 단위 -> 사람이 이해할 수 있는 지식, 정보 형태로 변환하는 것 + 단순히 시각적으로 보이는 것을 넘어서 보는 사람/만든 사람의 .. 2023. 9. 28. 디퓨전 모델 논문 리뷰 : Denoising Diffusion Probabilistic Models 아직 갈길이 멀지만 Computer Vision에 대해 관심이 많아서 디퓨전 모델에 대한 논문을 리뷰해보려고 한다. 이걸 시작으로 앞으로 CV쪽 논문에 대해서도 정리를 해보려고 한다. Learned 1. 생성 모델 특히, 이미지 생성모델에 대해서 전반적으로 파악하고 비교할 수 있었던 논문.(데이터 분포와 이를 추정하는 접근 방식에 대한 내용이 인상깊었다. 특히 DBMS 연구실에서 정리해주신 도식이 명확하게 한눈에 각 모델의 차이를 이해하기 좋았다.) 2. Diffusion 모델이 실제로 수학적으로 어떻게 작동하는지 원리에 대해서 배우면서 각 개념들에 대해서 좀 더 단단하게 이해할 수 있었다. 특히 마코프 체인의 특성과 가우시안 분포를 활용해서 문제를 단순화하는 것이 인상깊었다. 3. Tractable한 .. 2023. 9. 23. 전체 인공신경망 code 구현하기 이전에 Forward pass 코드 구현 이후로 역전파 개념과 학습에 필요한 작업들을 포함해서 코드를 작성해보았다. 이전 글은 여기서 볼 수 있고, 오늘은 최종적으로 인공신경망(Linear하게 쌓아올린 모델) 코드를 작성해보았다. 이전에 작성한 코드는 크게 3가지를 구현했고, 오늘은 추가로 4가지를 구현해보려고 한다. weight 초기화 신경망 구조 구성하기 활성화 함수 넣어주기 신경망을 통한 추론하기 loss 계산하기 역전파 구현하기 gradient 업데이트 신경망 학습 기존 code는 우선 여기서 정리해보았고, 추가할 함수는 빈칸으로 놔두었다. 하나씩 채워보려고 한다. #캐글 데이터셋에서 노트북 열기를 했을 때, 나오는 기본 설정 import numpy as np import pandas as pd .. 2023. 9. 22. [RLHF] Deep Reinforcement Learning from Human Preference 논문 리뷰 오늘은 ChatGPT라는 InstructGPT 모델을 만들 수 있었던 원인 중 하나인 RLHF(Reinforcement Learning by Human Feedback)에 대해서 정리해보려고 한다. 최근 유튜브 보다가 이 개념에 대해서 헷갈려서 정리 차원에서 2번째 논문 리뷰로 정리해보았다. 논문 링크 : https://arxiv.org/pdf/1706.03741.pdf Learned 강화학습의 기본적인 메커니즘에 대해서 이해할 수 있었다. 강화학습, 지도학습, 비지도학습 각자가 따로 발전하기보다는 서로 단점들을 다른 학습들이 활용하면서 발전해가는 것이 보이고 역시나 어떤 데이터를 학습시키고 활용할지가 중요하다는 것을 알 수 있었다. 데이터 Cost 역시도 점차 중요해지고 잇음을 알 수 있어싿. Summ.. 2023. 9. 19. 딥러닝 학습 - parameter와 hyper-parameter 지금까지 실제 모델이 추론 - 학습을 하는데 필요한 전체적인 프로세스를 정리해보았다. 이제 실제 인공신경망 코드를 처음부터 끝까지 완성하기 전에 마지막으로 딥러닝 훈련(Training)에 필요한 옵션들에 대해서 얘기해보려고 한다. 파라미터와 하이퍼 파라미터 지금까지 우리는 인간이 학습하는 것처럼 기계에게 여러 Case들을 보여주고 스스로 기계가 인공신경망의 "가중치"를 배우는 과정을 딥러닝이라고 했다. 이 때 우리가 학습시키려는 대상을 parameter라고 부르곤 했다. 하지만 모델을 학습시키는데 있어서 추가적으로 파라미터가 필요한데 이는 기계가 학습시키는 것이 아니라 인간이 수동으로 설정해줘야하는 지표이다. 우리는 이걸 hyper-parameter라고 하고, 아래는 우리가 지정해줘야하는 하이퍼 파라미터.. 2023. 9. 18. LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰 의미있는 논문을 해야하나 어떤 것을 할까 생각하다가, 우선은 최근에 알게 된 논문부터 해보기로 했다. 논문 리뷰 목적은 기본적으로 나중에 내가 다시 영어 논문을 찾아보지 않아도 바로 이 블로그만 봐도 전체적인 내용을 파악할 수 있게 하기 위함이고, 논문별 인사이트, 논문간의 연결점들은 따로 스프레드 시트로 정리하려고 하고 있는데 이건 어떻게 블로그에 공유할 수 있을지는 좀 더 고민해보려고 한다. Learned 최근 LLM 모델들의 대부분은 결국 Cost - Efficiency 문제를 해결하는데 집중하는 것으로 보인다.(Parameter, Computation Cost) LLM을 만드는 기업은 소수의 빅테크 기업이 독점할 것이고, 대부분의 개발자나 회사는 그 모델을 파인튜닝해서 사용할텐데 그 관점에서 다양.. 2023. 9. 16. 이전 1 ··· 5 6 7 8 9 다음