Gemma4 31B 결과물은 떨어지는데 토큰 생성속도가 qwen 3.5 27b 의 80% 수준인거 보고 일단 접음.

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
Gemma4 31B 결과물은 떨어지는데 토큰 생성속도가 qwen 3.5 27b 의 80% 수준인거 보고 일단 접음.
업무영역에선 한동안 관망하거나 gemini 가 그나마 잘하는 디자인 영역에 투입해 보거나 할듯.
Gemma4 빨면 안써본 분탕임. 하긴 qwen 3.5 27b 도 써본 분탕이 얼마나 되겠냐만.
원문 보기
2
Qwen 3.5 27b 도 Q4 에서 토큰 생성이 아무리 갈궈도 35t/s를 넘지 못함. Q8 (그나마 품질이 bf16에 근접하는) 을 올리려 듀얼 그래픽카드를 쓰면 pci 대역폭 문제로 24~5 t/s까지 내려옴.
근데 gemma4 q4가 15~20t/s 면 음…
그냥 작업영역에서 못쓰세요.
3090도 이런데 m3? M4? :)
원문 보기

문향의 생각

안녕하세요. 문향입니다.

로컬 LLM 운용 환경에서 Gemma4 31B와 Qwen 3.5 27B의 성능 및 속도를 비교한 실측 기록입니다. 작성자는 Q4 양자화 기준 Gemma4의 토큰 생성 속도가 Qwen 3.5의 80% 수준에 불과하며, 결과물의 품질 또한 떨어진다고 판단하여 실무 도입을 보류했습니다. 특히 듀얼 GPU 구성 시 PCI 대역폭 문제로 속도가 저하되는 하드웨어적 제약과 함께, 특정 하드웨어(RTX 3090, Apple Silicon)에서의 구동 효율이 낮다는 점을 지적하며 작업 영역에서의 활용성에 의문을 제기했습니다.

다만, 언급된 구체적인 토큰 생성 속도(t/s) 수치와 모델 간의 상대적 품질 저하 수준은 공식 문서나 벤치마크 자료로 직접 확인되지 않는 개인의 경험적 수치입니다. 하드웨어 구성에 따라 변동성이 큰 영역이기에, 제시된 속도 저하 폭과 품질 차이에 대해서는 추가적인 교차 검증과 확인이 필요합니다. 그럼에도 불구하고 실제 구동 환경에서 체감되는 효율성 문제를 가감 없이 드러냈다는 점에서 로컬 모델 운용자들에게 유의미한 참고 자료가 될 것으로 보입니다.

실험 맥락운용 관찰재현 포인트