1️⃣ 단어 vs 문장
comfyui 같은 ai에서 작성하는 프롬프트는
'1girl, skirt, shirt' 같은 단어의 나열이거나
'1girl is wearing a shirt and skirt' 같은 문장식의 자연어 구조 둘다 사용가능하다
그럼 이들은 어떻게 다르며 무엇이 더 효과적일까
결론부터 말하면 어떤 훈련을 중점적으로 한 모델인가에 따라 달라진다
예를들면 스테이블디퓨전과 NovelAi의 경우 대부분 Danbooru 태그형을 이용해서 학습했다
간단하게 얘기해서 손에 익은 것이 더 나은 작업물이 된다는 것이다
'로멘틱, 성공적' 이러면 알만한 사람은 당장 누구를 그리게 되지만
'어떤 남자가 로멘틱하게 성공적인 연예를 하자고 합니다' 라고 하면 당장은 뭔개소리일까 갸우뚱하게 되는 원리다
즉, 이경우 모델은 학습하지 않은 정보가 너무 많이 포함되어서 오히려 효율이 내려가게된다
반면
DALLE나 미드저니 같은 경우 문장형으로 학습해서 문장을 더욱 잘 이해한다
위에는 저런 예시지만 일반적으로 스무고개를 할때 단어 몇개 던저주는것보다 설명해주는 것이
더 나은 결과를 보이는 것이 사실인데 만약 스테이블디퓨전도 문장으로 학습했다면
AI에서도 같은 결과가 나올지는 나도 궁금한 부분이다. 여하튼 중요한건 학습이라는 것이 비싼 비용이기에
단일 모델을 두가지 학습을해서 제대로 비교하질 못해서
이걸 단순히 단어형, 문장형중 누가 더 우수하다 라고 말하기보다는
각 모델이 뭘로 학습했느냐가 진짜 성능의 척도가 되는게 현실이다.
그점에서 로컬과 애니계 모델은 확실히 단어나열형이 좋은 결과를 보여준다
2️⃣ CLIP (그림감별사 자격증 보유)
CLIP은 이름만 봐도 거지 같은 타용어들에 비해 뭔가 가벼움을 준다. 마치 금태양처럼..
그래서 얘가 뭔지 많은 이들이 무시한다. 하지만 사실은 말입니다..
CLIP이야말로 힘숨찐의 근본인거시다
클립의 약자는 `Contrastive Language-Image Pretraining` 쉽게 말하면
그림과 글자를 대조해서 노가다한 전문그림 감별사다
그것도 대단하지만 이는 더 큰의미를 갖는데
멀티모달이라는 것이다. 즉 SD처럼 그림만 그리거나 번역기처럼 번역만하는 찐따들과 달리
다방면에서 활약이 가능한 인싸인재다. 글자를 그림으로 번역한다.. 거의 뭐 마술사급이다
그러니까 얘가 있음으로 인해 SD가 있다는 것이 과언이 아닌 것이다
게다가 금태양같은 인싸면서도 가벼운 날나리도 아니다
이런 단어집까지 만들어가면서 번역에 진심이다. 성격도 좋은데 운동도 하는..
여튼 얘의 능력은 프롬프트가 들어오면 그것을 번역해서
그림감별사의 능력으로 화가에게 구체적으로 어떻게 그릴지 텔레파시로 설명해준다
왠 뜬금없는 텔레파시인가.. 라고하면 그냥 설명해준다 라는 예시가 오히려 더 부적절하기 때문이다
인간으로 말하면 특정기억을 상기시켜주는 공감능력수준이라고 보면 된다
'이 음식은 빨간색과 파란색이 조화롭게 섞여서 윤기가 흐릅니다'가 아니라
'그때 거기서 먹은 빨파음식 기억나? 맛있었지' 라고 하면 SD도 그치그치 하면서 그리는것이다
지금까지의 설명은 봤으면 눈치챘듯이 SD와 CLIP은 한몸이 아니라 이용하는 별개의 도구다
단 훈련때 같이 골방에 갖혀서 훈련하긴한다. 그래야 공감능력이 커질테니까
하지만 완전히 다른 계열이 아니라면 이쪽 SD모델에서 CLIP만 떼서 저쪽 SD에 갖다붙이는 것도 가능하다
그리고 더 좋은 결과를 낼수도 있다.
그럼 이 CLIP이 구체적으로 어떻게 작동하는지는 다음편에서 알아보도록 하겠다
'ComfyUI' 카테고리의 다른 글
프롬프트와 토큰, 텐서, 임베딩 개념 (0) | 2025.02.19 |
---|---|
CFG의 개념과 원리 (0) | 2025.02.17 |
프롬프트 컨디션(Conditioning) 이란? (2) | 2025.02.02 |