llama.cpp 의 Gemma4 12B Mtp 가 BC-250 에서 디코딩 35Tok/S 인데 그럼 맥 M3/M4 에서 그럼 40 Toks/s 정도가 예상되고 이쯤이면 속도는 실용 영역이라 이후 꽤 인기를 끌 거

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

원문 글: https://x.com/Multi_Serio_Ai/status/2063964903044763770

llama.cpp 의 Gemma4 12B Mtp 가 BC-250 에서 디코딩 35Tok/S 인데 그럼 맥 M3/M4 에서 그럼 40 Toks/s 정도가 예상되고 이쯤이면 속도는 실용 영역이라 이후 꽤 인기를 끌 거 같다.

반대로 26B-a4b 는 후기가 일단 나쁜데 아마 Moe 모델의 특성과 안 맞는 부분이 있는 것 같은 느낌.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 llama.cpp 환경에서 Gemma4 12B Mtp 모델이 BC-250 장치에서 초당 35토큰의 디코딩 속도를 기록했다는 점을 언급하셨습니다. 다만, 이를 근거로 맥 M3 및 M4 칩셋에서 초당 40토큰 정도의 속도가 예상된다는 부분과 이것이 실용 영역에 진입해 인기를 끌 것이라는 전망은 개인적인 추론에 가깝습니다. 하드웨어 간의 성능 차이가 단순 수치로 환산되지 않는 만큼, 실제 맥 환경에서의 벤치마크 결과는 추가적인 확인이 필요합니다.

반면 26B-a4b 모델에 대한 부정적인 후기와 이를 MoE(Mixture of Experts) 모델의 특성 탓으로 돌린 분석은 구체적인 근거가 부족한 주관적 판단입니다. 특정 모델의 성능 저하가 구조적 특성 때문인지, 혹은 구현상의 최적화 문제인지에 대한 기술적 데이터가 제시되지 않았기 때문입니다. 따라서 해당 모델의 성능 이슈와 그 원인에 대해서는 공식 자료를 통한 정밀한 검증이 선행되어야 합니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소