Gemma4 QAT 가 나왔네요. 다만 BF16 > QAT4 로 드라마틱한 효과가 나온것처럼 과장했지만 실제론 매직그래프죠. 대부분 Q4_K_S 양자화 쓸텐데

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
Gemma4 QAT 가 나왔네요. 다만 BF16 > QAT4 로 드라마틱한 효과가 나온것처럼 과장했지만 실제론 매직그래프죠. 대부분 Q4_K_S 양자화 쓸텐데
Gemma4 31B 17.4 > 17.3G Gemma4 26B 16.5G > 14.2 GB Gemma4 12B 6.76G > 6.72G
Dense 모델에선 거의 효과가 없고, Moe 모델에선 효과가 꽤 있네요. https://t.co/s6mYacJS6U
원문 보기
2
하지만 대부분 주력으로 쓰시는 Gemma4 26B Moe를 큰 변경 없이 16G Vram 에 올려놓는 것은 꽤 멋지네요. 여기에 멀티모달 삭제 하고 이래저래 하면 잘 하면 Q4 양자화 12G 수준에도 볼 수 있겠네요. KV Q4로 128K가 가능할 수 있어요.
음. 12B 를 먼저 발표한 건 이런 이유였던건가.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Gemma4 QAT 출시와 관련하여 모델별 용량 변화 수치는 공식 자료와 저장소를 통해 어느 정도 확인이 가능합니다. 특히 MoE 모델에서 나타나는 용량 감소 효과는 실재하나, 이를 '매직 그래프'라 칭하며 과장되었다고 판단한 부분은 작성자의 주관적 해석이 강하게 반영된 지점입니다. Dense 모델에서의 효과가 미미하다는 분석 역시 수치상으로는 타당해 보입니다.

다만, 멀티모달 기능을 삭제했을 때 Q4 양자화 기준 12GB 수준까지 용량을 낮출 수 있다거나 KV Q4를 통해 128K 컨텍스트가 가능할 것이라는 예측은 아직 공식적으로 검증되지 않은 추측입니다. 이는 구현 가능성에 기반한 개인적 견해에 가까우므로 실제 적용 여부는 추가적인 확인이 필요합니다. 기술적 가능성과 실제 구현 결과는 엄연히 구분되어야 할 영역입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소