본문 바로가기

stable diffusion2

만들면서 배우는 생성 AI 13장 - 멀티모달 모델 멀티모달 학습이란 두 종류의 데이터 사이를 변환하도록 생성 모델을 훈련시키는 학습이다. 여기서 두 종류의 데이터란, 이미지/텍스트/비디오 등을 의미한다. Dall-E 2 이 모델은 텍스트 투 이미지 생성용으로 만든 모델이며 2022년 4월에 출시된 버전이다. 구조 : 입력 프롬프트 -> 텍스트 인코더 -> 텍스트 임베딩 -> 프라이어 -> 이미지 임베딩 -> 디코더 -> 이미지 생성 주요하게 볼 부분은 텍스트 인코더, 프라이어, 디코더 세가지이다. 1. 텍스트 인코더 역할 텍스트 프롬프트를 임베딩 벡터로 변환시키는 역할을 하며, 잠재 공간 내에서 텍스트 프롬프트의 개념적 의미를 나타낸다. 이 모델에서는 CLIP이라는 모델을 사용한다. CLIP 모델 자연어 감독으로부터 시각적 개념을 효율적으로 학습하는 신.. 2024. 1. 3.
디퓨전 모델 논문 리뷰 : Denoising Diffusion Probabilistic Models 아직 갈길이 멀지만 Computer Vision에 대해 관심이 많아서 디퓨전 모델에 대한 논문을 리뷰해보려고 한다. 이걸 시작으로 앞으로 CV쪽 논문에 대해서도 정리를 해보려고 한다. Learned 1. 생성 모델 특히, 이미지 생성모델에 대해서 전반적으로 파악하고 비교할 수 있었던 논문.(데이터 분포와 이를 추정하는 접근 방식에 대한 내용이 인상깊었다. 특히 DBMS 연구실에서 정리해주신 도식이 명확하게 한눈에 각 모델의 차이를 이해하기 좋았다.) 2. Diffusion 모델이 실제로 수학적으로 어떻게 작동하는지 원리에 대해서 배우면서 각 개념들에 대해서 좀 더 단단하게 이해할 수 있었다. 특히 마코프 체인의 특성과 가우시안 분포를 활용해서 문제를 단순화하는 것이 인상깊었다. 3. Tractable한 .. 2023. 9. 23.