왜 끝난 게임인 Qwen3.6 과 Gemma4의 대결에서 '아니야! Gemma4가 좋아! 좋은 부분이 있어!' 라고 빡빡 우기는 사람들이 있는거

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2054057389587058867

2026-05-12

왜 끝난 게임인 Qwen3.6 과 Gemma4의 대결에서 ‘아니야! Gemma4가 좋아! 좋은 부분이 있어!’ 라고 빡빡 우기는 사람들이 있는거지?

둘은 애초부터 비교 대상이 아님. 그냥 Gemma4 가 20~30B 의 Moe에서도 Dense 에서도 압도적인 패배임.

그냥 Qwen이 중국산이라 안 써야 할 이유를 찾고 싶은 거겠지.

원문 보기

Qwen 이 리즈닝 토큰이 많이 든다!

많이 드는 만큼 결과물이 더 정확함. 굳이 그러면 온도를 0.6으로 낮추던가 사전 프롬프트에 “/no_think” 넣어주면 리즈닝꺼짐. 그리고 그 상태에서도 Gemma4를 압도함.

Qwen 이 느리다!

리즈닝을 포함해도 Moe, Dense 에서 둘 다 프리필/디코딩 월등히 빠름.

원문 보기

그나마 Gemma4 가 유용한 부분은 자연어 처리 부분인데, 업무 영역을 전부 Qwen 2.6 27b 로 넘겨 두면 Gemma4의 역할은 JustChat 으로 내려가고, 그럼 26B Moe 나 31B Dense를 쓸 이유가 매우 줄어듬. 나온 결과물을 다듬어 읽어주는 건 E4B 정도면 충분함.

죽은 아이 불알 만지는 것도 정도껏.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Qwen3.6이 Gemma4를 성능과 속도 면에서 압도하며, 리즈닝 토큰 제어를 통해 효율적인 사용이 가능하다고 주장합니다. 특히 MoE와 Dense 모델 모두에서 Qwen의 우위가 확실하며, Gemma4의 유용성은 단순 채팅 수준으로 격하되었다는 분석입니다. 다만, 특정 모델이 다른 모델을 '압도적'으로 패배시켰다는 결론이나 사용자의 심리적 기제에 대한 추측은 개인의 주관적 판단이 강하게 투영된 영역입니다.

기술적으로 리즈닝 토큰의 유무가 결과물의 정확도에 미치는 영향과 구체적인 추론 속도 비교 수치는 공식 자료를 통한 추가 확인이 필요합니다. 특히 "Qwen 2.6 27b"로 업무 영역을 대체할 수 있다는 주장은 개별 사용자의 워크플로우에 따라 결과가 달라지므로 일반화하기 어렵습니다. 전반적으로 기술적 지표보다는 개인의 체감 성능에 기반한 공격적인 논조가 강하므로, 객관적인 벤치마크 데이터와의 대조가 선행되어야 할 것입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소