imagen1 만들면서 배우는 생성 AI 13장 - 멀티모달 모델 멀티모달 학습이란 두 종류의 데이터 사이를 변환하도록 생성 모델을 훈련시키는 학습이다. 여기서 두 종류의 데이터란, 이미지/텍스트/비디오 등을 의미한다. Dall-E 2 이 모델은 텍스트 투 이미지 생성용으로 만든 모델이며 2022년 4월에 출시된 버전이다. 구조 : 입력 프롬프트 -> 텍스트 인코더 -> 텍스트 임베딩 -> 프라이어 -> 이미지 임베딩 -> 디코더 -> 이미지 생성 주요하게 볼 부분은 텍스트 인코더, 프라이어, 디코더 세가지이다. 1. 텍스트 인코더 역할 텍스트 프롬프트를 임베딩 벡터로 변환시키는 역할을 하며, 잠재 공간 내에서 텍스트 프롬프트의 개념적 의미를 나타낸다. 이 모델에서는 CLIP이라는 모델을 사용한다. CLIP 모델 자연어 감독으로부터 시각적 개념을 효율적으로 학습하는 신.. 2024. 1. 3. 이전 1 다음