Qwen 3.5 27b 를 3090에 올려서 온도 0.6 추론 코딩세팅 하고 쓰는데, Vram의 한계로 컨텍스트를 100K 정도밖에 쓸 수 없음. 아마 쥐어짜면 130K~140K 까진 쓸꺼같은데 OOM 의 공포가

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
Qwen 3.5 27b 를 3090에 올려서 온도 0.6 추론 코딩세팅 하고 쓰는데, Vram의 한계로 컨텍스트를 100K 정도밖에 쓸 수 없음. 아마 쥐어짜면 130K~140K 까진 쓸꺼같은데 OOM 의 공포가 있음. 결국, 최소 32G Vram 을 쓰는거니 맥 아니면 5090을 가야만 함.
다들 어떻게 잘 쓰는지 궁금하기만 하다.
원문 보기
2
그래도, 대충 Gemini-Cli 등장했을때 열심히 쓰던 Gemini 2.5 Pro 보단 월등히 나음.
Gemini 3 pro : 실력은 비슷하지만 정확성이 좀 더 높은 Gpt 5.1~2 수준, 클로드는 안써봤지만 Opus 4.5 보다 조금 떨어지는 정도가 아닐까 싶음.
부족한건 컨텍스트. 역시 램이 필요해. 크고 아름다운 V램이.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

RTX 3090 환경에서 Qwen 3.5 27B 모델을 운용하며 겪는 VRAM의 물리적 한계와 그로 인한 컨텍스트 제약은 로컬 LLM 사용자라면 공감할 실질적인 고충입니다. 100K 이상의 컨텍스트 확보 시 발생하는 OOM(Out of Memory) 위험과 이를 해결하기 위해 32GB 이상의 VRAM을 갖춘 하드웨어로의 전환이 필요하다는 분석은 하드웨어 제원상 타당한 판단입니다. 다만, 구체적인 컨텍스트 임계치인 130K~140K 도달 가능 여부는 사용자의 최적화 설정에 따라 달라질 수 있는 경험적 수치입니다.

반면, 타 모델과의 성능 비교 부분은 객관적 지표보다는 개인의 주관적 체감이 강하게 반영되어 있어 주의 깊은 접근이 필요합니다. Gemini 3 Pro나 GPT 5.1~2, Claude Opus 4.5 등 구체적인 버전의 성능을 비교한 주장은 공식 벤치마크 자료로 직접 확인되지 않는 영역이므로 '확인 필요' 단계의 개인적 견해로 분류됩니다. 결국 이 기록은 최신 모델의 성능적 만족감과 하드웨어의 물리적 제약 사이에서 갈등하는 로컬 운용자의 전형적인 시행착오를 보여줍니다.

실험 맥락운용 관찰재현 포인트