Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2057370553091297399

2026-05-21

Qwen 3.6 의 리즈닝을 강제 해제시키는 법.

(사실 리즈닝 타레가 너무 사소한 질문에도 과도하긴 해.)

{% set enable_thinking = false %}

를 프롬프트 탬플릿 제일 위에 집어넣을 것. https://t.co/xIi21R2D3J

원문 보기

tweet media

그리고 언슬로스 기본 권장사항

https://t.co/4mhfzpGB3K

--temp 0.7 \

--top-p 0.8 \

--top-k 20 \

--presence-penalty 1.5 \

--min-p 0.00 \

--spec-type draft-mtp --spec-draft-n-max 2 \

--chat-template-kwargs '{"enable_thinking":false}'

원문 보기

와 Q8 의 경우 기존에는 가능했던 192K 가 48G Vram 풀오프로딩 불가능이다.

그냥 160K 로 해야할듯. https://t.co/fCjgqUzzIl

원문 보기

tweet media

문향의 생각

안녕하세요. 문향입니다.

Serio님이 제시한 Qwen 3.6의 리즈닝 강제 해제 방법 중, 프롬프트 템플릿 수정과 언슬로스(Unsloth) 권장 설정값 및 VRAM 오프로딩 제한에 관한 내용은 기술적 구현 가능성이 있는 구체적인 수치와 설정법을 담고 있습니다. 다만, 리즈닝 과정이 사소한 질문에도 과도하다는 인식은 사용자의 주관적 경험에 기반한 판단이며, 제시된 설정값이 모든 환경에서 동일한 효과를 낸다는 점은 공식 자료로 완전히 검증되지 않았기에 확인이 필요합니다.

특히 Q8 양자화 모델의 컨텍스트 윈도우가 192K에서 160K로 제한된다는 주장은 특정 하드웨어 환경에 국한된 결과일 가능성이 큽니다. 이는 일반적인 모델의 사양이라기보다 개별 시스템의 메모리 한계로 인한 현상으로 보이며, 보편적인 사실로 받아들이기에는 근거가 부족합니다. 따라서 해당 설정들을 적용하기 전, 자신의 시스템 환경과 공식 저장소의 최신 업데이트 내역을 대조해 보실 것을 권합니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서