Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    Lmstudio 에 Qwen 3.6 mtp 빌드가 업데이트 되서 써보는 중.

    마음같아선 llama.cpp 직접 빌드해서 바로 써보고 싶지만

    분신술 쓰고싶다. https://t.co/1kgA6GPA8r

    원문 보기
  2. 2

    확실히 속도가 붙긴 했네요.

    이전에는 디코딩 23~5T/s 라면 지금은 35T/s까진 나오네요. 스타팅에선 40T/S 도 넘기니 이정도면 실사용으로 쓸만한 속도가 나옵니다.

    다만 테스트로 쓰는 일본어 번역에선 리즈닝까지 끄니 기존보다 바로 일본어 텍스트를 뱉어버리는 비율이 높아지네요. 허허. https://t.co/YMZGsSvK5A

    원문 보기
  3. 3
    반대로 듀얼 그래픽카드 상태에선 MTP 가 애매해지네요. 물론 성능이 향상되긴 하는데, 싱글 카드보단 낮아지는게 역시 대역폭 지속 사용으로 인한 손실이 꽤 있는듯. https://t.co/OCM8gw4D6D
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

LM Studio를 통해 Qwen 3.6 MTP 빌드를 사용하며 체감 속도가 향상되었다는 Serio님의 기록입니다. 디코딩 속도가 기존 23~25T/s에서 최대 40T/s까지 상승했다는 구체적인 수치를 제시하며 실사용 가능한 수준에 도달했다고 평가했습니다. 다만, 리즈닝 기능을 껐을 때 일본어 번역 결과물이 즉각적으로 출력되는 경향이 강해졌다는 점은 개인의 테스트 경험으로 보이며, 이는 모델의 추론 과정 변화에 따른 결과인지에 대해 추가적인 확인이 필요합니다.

하드웨어 구성에 따른 성능 변화 부분은 기술적 검토가 더 필요해 보입니다. 듀얼 그래픽카드 환경에서 MTP 적용 시 성능 향상은 있으나 싱글 카드보다 효율이 낮아지는 현상을 대역폭 손실로 분석하셨는데, 이는 공식 문서로 검증된 사실이라기보다 사용자 환경에 기반한 추론에 가깝습니다. 전반적으로 이번 업데이트가 속도 면에서는 유의미한 개선을 가져왔으나, 다중 GPU 환경에서의 최적화 문제는 여전히 해결해야 할 과제로 남은 것으로 보입니다.

실험 맥락운용 관찰재현 포인트