Machine Learning41 [RLHF] Deep Reinforcement Learning from Human Preference 논문 리뷰 오늘은 ChatGPT라는 InstructGPT 모델을 만들 수 있었던 원인 중 하나인 RLHF(Reinforcement Learning by Human Feedback)에 대해서 정리해보려고 한다. 최근 유튜브 보다가 이 개념에 대해서 헷갈려서 정리 차원에서 2번째 논문 리뷰로 정리해보았다. 논문 링크 : https://arxiv.org/pdf/1706.03741.pdf Learned 강화학습의 기본적인 메커니즘에 대해서 이해할 수 있었다. 강화학습, 지도학습, 비지도학습 각자가 따로 발전하기보다는 서로 단점들을 다른 학습들이 활용하면서 발전해가는 것이 보이고 역시나 어떤 데이터를 학습시키고 활용할지가 중요하다는 것을 알 수 있었다. 데이터 Cost 역시도 점차 중요해지고 잇음을 알 수 있어싿. Summ.. 2023. 9. 19. 딥러닝 학습 - parameter와 hyper-parameter 지금까지 실제 모델이 추론 - 학습을 하는데 필요한 전체적인 프로세스를 정리해보았다. 이제 실제 인공신경망 코드를 처음부터 끝까지 완성하기 전에 마지막으로 딥러닝 훈련(Training)에 필요한 옵션들에 대해서 얘기해보려고 한다. 파라미터와 하이퍼 파라미터 지금까지 우리는 인간이 학습하는 것처럼 기계에게 여러 Case들을 보여주고 스스로 기계가 인공신경망의 "가중치"를 배우는 과정을 딥러닝이라고 했다. 이 때 우리가 학습시키려는 대상을 parameter라고 부르곤 했다. 하지만 모델을 학습시키는데 있어서 추가적으로 파라미터가 필요한데 이는 기계가 학습시키는 것이 아니라 인간이 수동으로 설정해줘야하는 지표이다. 우리는 이걸 hyper-parameter라고 하고, 아래는 우리가 지정해줘야하는 하이퍼 파라미터.. 2023. 9. 18. LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰 의미있는 논문을 해야하나 어떤 것을 할까 생각하다가, 우선은 최근에 알게 된 논문부터 해보기로 했다. 논문 리뷰 목적은 기본적으로 나중에 내가 다시 영어 논문을 찾아보지 않아도 바로 이 블로그만 봐도 전체적인 내용을 파악할 수 있게 하기 위함이고, 논문별 인사이트, 논문간의 연결점들은 따로 스프레드 시트로 정리하려고 하고 있는데 이건 어떻게 블로그에 공유할 수 있을지는 좀 더 고민해보려고 한다. Learned 최근 LLM 모델들의 대부분은 결국 Cost - Efficiency 문제를 해결하는데 집중하는 것으로 보인다.(Parameter, Computation Cost) LLM을 만드는 기업은 소수의 빅테크 기업이 독점할 것이고, 대부분의 개발자나 회사는 그 모델을 파인튜닝해서 사용할텐데 그 관점에서 다양.. 2023. 9. 16. Machine Learning Yearning Book 정리 이 책은 Andrew Ng 교수님이 이북 형태로 공개한 책으로, 머신러닝 프로젝트를 구조화하고 개선하는 전략과 다양한 기법을 소개한다. 단순히 개념 소개라기보다는 머신러닝 모델을 만들면서, 접할 수 있는 다양한 케이스들에 대한 소개와 방법들을 예시와 함께 정리해놓은 책이다. 전체 58장으로 구성되어 있고, 무료로 다운로드 가능하기 때문에 실무적인 내용이나 트레이닝할 때 유의할 점 등을 어깨 너머로 배우기에는 좋은 책인 것 같다. 약 120페이지 정도이고, 주변의 번역해놓은 블로그도 많아서 영어 번역이 귀찮으신 분들은 참고하시면 좋을 것 같다. 책 정리는 모든 내용을 정리하기 보다는 내가 보면서 중복되는 내용 제거하고 도움될만한 것들 참고용으로 정리했다. 데이터 양과 모델 성능의 관계 전통적인 머신러닝 방.. 2023. 9. 15. 이전 1 ··· 6 7 8 9 10 11 다음