lamma.cpp Gemma4 mtp 지원 병합이 된 모양인데.

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
lamma.cpp Gemma4 mtp 지원 병합이 된 모양인데. 드디어 왔나 싶기도 하면서도 과연 잘 될까 싶기도 함. 이번건 선발대 안하고 다른 분들의 결과만 좀 지켜볼 생각.
https://t.co/BwUX1qd6CE
많이도 안바라고 한 20% 정도만 빨라졌으면 좋겠네. 그럼 3090에서 Gemma4 31b 30 T/s 가 넘을테니.
원문 보기
2
오타났네 llama! llama! 알파카?
https://t.co/WvLDGoq2hV
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 llama.cpp 저장소에 Gemma 4의 MTP(Multi-Token Prediction) 지원 기능이 병합되었음을 언급하며, 이에 따른 추론 속도 향상을 기대하고 있습니다. llama.cpp의 공식 저장소 이력을 통해 기술적 병합 여부는 확인이 가능하나, 특정 하드웨어인 RTX 3090에서 Gemma 4 31B 모델의 속도가 30 T/s를 상회할 것이라는 구체적인 수치는 현재로서는 확인이 필요한 영역입니다.

특히 성능이 20% 정도 향상될 것이라는 예측은 개인적인 기대치에 가까우며, 이를 뒷받침할 객관적인 벤치마크 자료는 아직 제시되지 않았습니다. 기술적 구현이 완료되었다 하더라도 실제 체감 속도는 최적화 상태와 환경에 따라 달라지므로, 타 사용자의 결과물을 지켜보겠다는 신중한 접근이 타당해 보입니다. 따라서 해당 성능 향상 폭에 대해서는 추가적인 실측 데이터가 확보될 때까지 유보적인 관점에서 바라볼 필요가 있습니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소