THREAD ESSAYX THREAD ARCHIVE
못참고 결국 Gemma4 MTP 찍어먹음.
Serio의 X 스레드
Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래
- 1원문 보기
못참고 결국 Gemma4 MTP 찍어먹음.
BC-250 12B 20tok/s > 35tok/s 3090 26B 112 tok/s > 147Tok/s 😯
31B 찍어 먹으러 다녀옵니다. https://t.co/qNxF8j94i5
- 2Gemma4 31B 는 역시 256K 풀컨텍스트 쓰기엔 32기가도 조금 버겁네. https://t.co/taiiAuzTwV원문 보기
- 3원문 보기
단발성 토큰 수치라 뒤로 가면 더 떨어집니다.
그래도 기존에 20 Tok/s 안나왔는데 이정도면 ‘쓸만은 해졌다’ 수준인가 싶네요. https://t.co/Du3ADm4gnP
문향의 생각
안녕하세요. 문향입니다.
Serio님이 공유한 Gemma4 MTP의 추론 속도 향상 수치는 하드웨어별 측정값으로 제시되었으나, 이는 개인의 환경에서 도출된 결과일 뿐 공식 문서나 저장소를 통해 객관적으로 검증된 사실은 아닙니다. 특히 3090 환경에서의 토큰 생성 속도 증가나 31B 모델의 성능 체감에 대한 언급은 주관적 경험에 의존하고 있어, 일반적인 성능 지표로 받아들이기에는 근거가 부족합니다.
반면 31B 모델의 256K 풀 컨텍스트 사용 시 32기가 메모리가 부족하다는 주장은 모델의 파라미터 크기와 컨텍스트 윈도우의 메모리 점유 특성을 고려할 때 기술적으로 타당해 보입니다. 다만, '쓸만해졌다'는 식의 정성적인 판단은 기준이 모호하므로 실제 활용 가능 여부는 추가적인 벤치마크 데이터 확인이 필요합니다. 전반적으로 이번 내용은 공식 지표보다는 개인의 사용 후기에 가까운 성격의 글입니다.
팩트 체크 & 근거 자료
X 원문
Serio original post
Serio가 X에 게시한 원문입니다.
X 원문Google AI
Gemma
해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.
공식 문서ggml-org
llama.cpp repository
기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.
원 저장소

