본문 바로가기

RLHF2

만들면서 배우는 생성AI 9장 : 트랜스포머 모델 오늘날 모든 GPT와 모든 생성AI 모델의 근간이라고 볼 수 있는 트랜스포머 모델에 대해 배우는 장입니다. 사실 내부적으로 뜯어보면 굉장히 이해하는데 오래걸리는 모델인데, 이번 기회에 찬찬히 뜯어보려고 합니다. Transformer 모델 1. Attention Mechanism 보통 완성되지 않은 문장에서 다음 단어를 예측하는데 있어서 인간은 문장 속 여러 단어들을 통해서 힌트를 얻습니다. 하지만 개별 단어들이 각기 동일한 중요도를 가질까요? 아닙니다. 어느 벌판에서 회색 코끼리가 ㅇㅇㅇㅇ. 라는 문장에서 회색이라는 단어는 사실 다음 동사를 예측하는데 전혀 기여를 하지 않습니다. 즉, 다음 단어를 예측하는데 있어서 중요한 단어가 따로 있다는 것입니다. 그렇다면 모델도 같은 메커니즘으로 다음 단어를 예측하.. 2023. 12. 12.
[RLHF] Deep Reinforcement Learning from Human Preference 논문 리뷰 오늘은 ChatGPT라는 InstructGPT 모델을 만들 수 있었던 원인 중 하나인 RLHF(Reinforcement Learning by Human Feedback)에 대해서 정리해보려고 한다. 최근 유튜브 보다가 이 개념에 대해서 헷갈려서 정리 차원에서 2번째 논문 리뷰로 정리해보았다. 논문 링크 : https://arxiv.org/pdf/1706.03741.pdf Learned 강화학습의 기본적인 메커니즘에 대해서 이해할 수 있었다. 강화학습, 지도학습, 비지도학습 각자가 따로 발전하기보다는 서로 단점들을 다른 학습들이 활용하면서 발전해가는 것이 보이고 역시나 어떤 데이터를 학습시키고 활용할지가 중요하다는 것을 알 수 있었다. 데이터 Cost 역시도 점차 중요해지고 잇음을 알 수 있어싿. Summ.. 2023. 9. 19.