로컬 LLM

로컬 LLM 실험실

로컬 LLM 서빙, 모델 설정, GPU/VRAM, 양자화, 실행 환경 관련 글을 모았습니다.

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    다들 Qwen 3.6 27b 을 24G Vram에서 192K, 256K 컨텍스트로 작업했다고 말하는데 아무리 하이브리드로 설계되었다 한들 현행 구조상 컨텍스트 증가에 따른 Kv 캐쉬 메모리 팽창을 막을 수 없잖아. 세팅만 256K 했다 하곤 실제론 캐쉬공간 20~30K 써놓고 192K 256K 로 작업했다 말하는 것처럼 보임.
    원문 보기
  2. 2

    Qwen 3.6 plus 27b Q4 15G jacklong 기준

    • 3090 24G 단독 작동시의 컨텍스트 한계 80K.
    • Unsloth Q3 13.2G 의 경우 110K 정도.

    즉, LLama.cpp의 기본 설정인 공유 메모리 사용 켜놓고 설정만 하이 컨텍스트 실제론 로우 컨텍스트로 작업하고 있는 것으로밖에 안보임.

    원문 보기
  3. 3
    가용 Vram 을 다 쓴 다음에 공유 메모리에 컨텍스트를 보내니까, 설정 256K 를 해놓았다 한들 작업 컨텍스트량이 적으면 문제 없이 돌아가는 것으로 보임. 컨텍스트 Full-load 테스트를 하는 사람은 보이질 않네. 그런 면에서 금닭님 @gosrum 같이 실 세션 데이터를 보여주시는 사람은 귀중함.
    원문 보기
  4. 4

    @gosrum 내 작업환경은 3090X2 (48G) 인데 여기서

    Qwen 3.6 27b 를 256K 풀컨텍스트 로드시 예상 메모리 소요량은 47G 임. 그런데 그렇게 돌려도 컨텍스트가 230K 수준에 도달하면 토큰 생성 속도가 급속도로 느려지고 시스템 메모리 사용량이 늘어남.

    그래서 192K로 타협 보고 사용하고 있음.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Qwen 3.6 27B 모델을 24GB VRAM 환경에서 192K 이상의 고컨텍스트로 운용했다는 일부 주장이 실제로는 KV 캐시 메모리 팽창이라는 구조적 한계를 간과한 것이라고 지적합니다. 특히 Llama.cpp의 공유 메모리 설정으로 인해 설정값만 높고 실제 작업량은 적은 상태일 가능성이 크며, 3090 단독 사용 시 컨텍스트 한계가 80K~110K 수준이라는 구체적인 수치를 제시했습니다. 다만, 제시된 하드웨어별 컨텍스트 한계치와 메모리 소요량에 대한 데이터는 공식 벤치마크가 아닌 개인의 실험 기록이므로, 범용적인 지표로 확정하기에는 추가적인 검증이 필요해 보입니다.

작성자는 48GB VRAM 환경에서도 256K 풀 컨텍스트 로드 시 메모리 점유율이 임계치에 도달하며, 특정 시점부터 생성 속도가 급감하는 현상을 경험했다고 밝혔습니다. 이는 설정상의 수치와 실제 추론 과정에서의 가용 자원 사이에는 괴리가 있음을 시사하는 유의미한 운용 기록입니다. 다만, 시스템 메모리 전이로 인한 속도 저하의 정확한 임계점이 모델의 구조적 특성인지 혹은 특정 런타임의 최적화 문제인지는 아직 명확히 확인되지 않았습니다. 결국 실제 세션 데이터를 통한 풀 로드 테스트만이 하드웨어의 실질적 한계를 증명할 수 있을 것입니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

벤치만 놓고 보면 '황제의 귀환'

3개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    벤치만 놓고 보면 ‘황제의 귀환’

    중화권 AI의 만인지상 답게 애초부터 경쟁상대는 양키 최상위 그룹하고만 비교하는 패기. 그러면서도 1M 인/아웃풋 합계 5달러가 안됨.

    딥시크쇼크가 과연 재현될지? https://t.co/qgYVTW0TKl

    원문 보기
  2. 2

    공개날자도 Gpt 5.5와 같이 잡은건 우연이려나. 아니려나.

    오! 양키! 한번 한 번 제대로 붙어보자!

    라고 내놓긴 했는데 아직은 벽이 좀 있어 보임. 물론 그 벽은 작년에 비하면 진짜 격차가 줄어든 상태이지만.

    Pro보다는 Flash가 맘에 든다. 컨텍스트 확대가 마냥 답은 아님.

    원문 보기
  3. 3

    그래서 사실 게임체인저는

    Qwen 3.6 plus 27b

    인데. 로컬 단일그래픽카드 or 32기가 통합메모리에서 20~50t/s로 실행하는 Opus 4.5.

    세상이 너무 고자극에 길들여졌는지 이 의미를 잘 모르는 것 같아서 아쉽다. 🫠

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

최근 공개된 중화권 AI 모델들의 벤치마크 성능과 파격적인 가격 정책은 시장에 상당한 충격을 주고 있습니다. 특히 1M 토큰당 비용이 5달러 미만이라는 점과 특정 모델의 성능 수치는 공식 자료를 통해 어느 정도 확인되나, GPT-5.5와의 출시일 일치 여부나 의도적인 경쟁 구도는 추측에 가깝기에 확인이 필요합니다. 전반적으로 성능 격차가 줄어든 것은 사실이지만, 여전히 최상위 모델과의 간극이 존재한다는 판단은 합리적인 분석으로 보입니다.

다만 Qwen 3.6 plus 27b 모델이 로컬 환경의 단일 그래픽카드나 32GB 통합 메모리에서 초당 20~50토큰의 속도로 Opus 4.5 수준의 성능을 낸다는 주장은 근거가 부족합니다. 이는 하드웨어 제약과 모델 최적화 수준에 따라 결과가 판이하게 달라지는 영역이며, 공식적인 벤치마크보다는 개인의 실행 경험 기록으로 보는 것이 타당합니다. 고자극의 성능 지표보다 실제 로컬 운용 효율성에 주목해야 한다는 시각은 유효하나, 구체적인 수치적 재현 가능성은 추가 검증이 필요합니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

아.

1개 글

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    아.

    qwen 3.5 27b Q4 양자화로 128K 만 올릴수있으면 2장 있는 3090을 동시에 사용할 수 있는데. 지금은 Q3 가 100K 고, Jacklong 튜닝버전이 80K 수준이네. 256K 를 올렸다는데 어떻게 했지?

    llama.cpp로 다시 넘어가야하는가? 조금 성능 손해보더라도 설정 귀찮아서 안넘어가고있었거늘.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 RTX 3090 2장의 VRAM 자원을 활용해 Qwen 3.5 27B 모델의 컨텍스트 길이를 확장하려는 시도와 그 과정에서의 제약을 언급하셨습니다. Q3 양자화 모델의 100K 지원과 Jacklong 튜닝 버전의 80K 수준이라는 수치는 개별 모델의 배포 상태에 따른 경험적 기록으로 보이나, 특정 버전이 256K까지 확장되었다는 주장은 공식 자료만으로는 명확히 검증되지 않아 추가 확인이 필요합니다.

현재 사용 중인 환경에서 성능 손실을 감수하고 llama.cpp로 회귀할지를 고민하는 지점은 하드웨어 제약과 소프트웨어 설정 사이의 전형적인 트레이드오프 상황을 보여줍니다. 다만, 양자화 수준에 따른 컨텍스트 윈도우의 가변성과 실제 가용 메모리 계산의 상관관계에 대해 구체적인 근거 제시가 부족하므로, 이는 기술적 사실보다는 개인의 운용 경험에 기반한 판단으로 읽힙니다. 효율적인 자원 배분을 위해 툴 체인 변경을 고려하는 실무적인 고민이 돋보이는 기록입니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

하루종일 Qwen 3.7 27b 로 작업해보고있는데

1개 글

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1
    하루종일 Qwen 3.7 27b 로 작업해보고있는데 결과물은 괜찮은데 생각보다 호출/프리필/토큰생성이 불안함. 로드 잘 걸리면 잘 되는데, 안될때도 종종 있음. 안데스 야생동물의 업글이 시급하다. https://t.co/xBm78rsvPc
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Qwen 3.7 27b 모델을 사용하며 결과물의 품질은 만족스러우나, 호출과 프리필 및 토큰 생성 과정에서 간헐적인 불안정성을 경험하셨습니다. 다만, 이러한 성능 저하가 모델 자체의 결함인지 혹은 특정 추론 엔진이나 하드웨어 가속 환경의 문제인지는 공식 자료를 통해 명확히 확인되지 않아 추가적인 확인이 필요합니다.

특히 '안데스 야생동물'로 비유된 특정 환경의 업그레이드가 시급하다는 주장은 개인의 사용 경험에 기반한 판단으로 보입니다. 로컬 LLM 운용 특성상 재현 가능성이 낮고 환경 변수가 많으므로, 이를 일반적인 기술 결함으로 단정하기에는 근거가 부족합니다. 따라서 해당 내용은 기술적 사실보다는 개별적인 시행착오 기록으로 읽는 것이 적절합니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

Qwen 3.7 테스트로 게임 둘 만들어 봤습니다.

3개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    Qwen 3.7 테스트로 게임 둘 만들어 봤습니다.

      1. 크롬 공룡게임 : https://t.co/KM6HtT5T6i (싱글턴 ‘크롬 공룡게임 만들어줘.‘의 결과물입니다.)

    싱글턴으로 여기까지 구현할까? 싶은 것들을 스스로 잘 달아 놨습니다. (죽을때 표정 바뀌는거 좀 귀엽습니다.)

    #Qwen #qwen3_6 #qwen3_6_27b https://t.co/ge34u4DAWa

    원문 보기
  2. 2

    -2. 사과게임 : https://t.co/CwRxAgl6bx

    • 합10을 만드는 사과게임의 재해석입니다.
    • 디자인은 어디까지 구현할 수 있을까?
    • 변형은 어디까지 만들 수 있을까?

    를 생각해서 만들었습니다. https://t.co/RZDqosxmwI

    원문 보기
  3. 3
    모바일에서 안열어봤더니 모바일은 좀 고칠데가 있군요 ㅡㅡㅋ
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Qwen 3.7 모델을 활용해 크롬 공룡 게임과 사과 게임 두 가지를 구현했으며, 특히 공룡 게임의 경우 단일 프롬프트(싱글턴)만으로 세부 디테일까지 생성되었다고 주장합니다. 하지만 제공된 1차 자료와 공식 저장소에서는 해당 모델이 구체적으로 어떤 프롬프트를 통해 이러한 결과물을 냈는지, 혹은 싱글턴 생성의 한계치가 어디까지인지에 대한 기술적 검증 데이터가 부족하여 이 부분은 확인이 필요합니다.

사과 게임의 재해석과 디자인 변형 시도 역시 개인의 실험 기록으로 보이며, 모바일 환경에서의 구동 최적화 문제는 사용자 경험에 기반한 주관적 판단으로 보입니다. 공식 문서나 저장소에서 모델의 코드 생성 능력을 정량적으로 입증하는 자료를 찾을 수 없으므로, 현재로서는 재현 가능성이 확인되지 않은 개별 운용 사례로 분류하는 것이 타당합니다. 전반적으로 모델의 성능을 체감한 기록이나, 기술적 근거는 보완되어야 할 것으로 보입니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

언슬로스판 Q4양자화버전 다운로드

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    언슬로스판 Q4양자화버전 다운로드 기본 컨텍스트가 빡빡해서, 24G Vram 기준 36K 컨텍스트 평소 하던대로 공룡벤치

    … 리즈닝 확 줄어든것도 줄어든것인데.

    34T/s 토큰 6353개

    토큰 생성속도 기존보다 좀 빨라진거같은데 코드 품질이 미쳐있네. 공룡게임 여기까지 만든거 처음 보는데. https://t.co/bbqrqQ4HeM

    원문 보기
  2. 2

    소설 번역 테스트

    13990 토큰 싱글턴 프롬 4분 11초. 끝까지 평균 34T/s 문장구조는 제대로 나오나 27B보다 제대로 번역 못해내는 한글 텍스트가 늘어남.

    문장 쓰기/이해능력은 잼마4보다 떨어지는듯.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 공유하신 언슬로스판 Q4 양자화 모델의 성능 기록은 하드웨어 제약과 모델의 실질적 출력 품질 사이의 상관관계를 보여줍니다. 24GB VRAM 환경에서 36K 컨텍스트 제한과 초당 34토큰의 생성 속도는 기술적으로 재현 가능한 수치이며, 특히 코드 생성 능력의 향상은 구체적인 결과물로 증명되었습니다. 다만, 리즈닝 능력이 확연히 줄어들었다는 주장은 정량적 지표가 아닌 주관적 체감에 의존하고 있어 객관적인 검증이 필요합니다.

소설 번역 테스트에서 나타난 한국어 처리 능력 저하와 잼마4 대비 낮은 이해력에 대한 판단은 개인의 경험적 기록으로 보입니다. 모델의 파라미터 크기나 양자화 방식에 따른 언어 능력 변화는 일반적인 경향성일 수 있으나, 특정 텍스트에서 번역 품질이 떨어졌다는 주장은 공식 자료로 확인되지 않는 영역입니다. 따라서 해당 부분은 모델의 범용적 성능 하락이라기보다 특정 태스크에서의 편차일 가능성이 크므로 추가적인 확인이 필요합니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

End agent : kimi 4.6 (Api 호출 / 구독)

1개 글

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    End agent : kimi 4.6 (Api 호출 / 구독) Middle agent : Qwen 3.6 plus 27b (로컬) low agent (Fast) : Qwen 3.6 plus 35b (로컬)

    10~20$ 구독으로 구축할 수 있는 최상의 세팅. 과연 미국 빅테크는 어떻게 반격을 할 것인가.

    아 이렇게 FOMO왔을때가 Gemini3 이후로 없었는데;;;

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 제시한 Kimi 4.6와 Qwen 3.6 시리즈의 계층적 에이전트 구성은 기술적으로 흥미로운 실험적 세팅입니다. 다만, 10~20달러의 구독료만으로 이 모든 구성의 '최상' 효율을 낼 수 있다는 주장은 공식적인 벤치마크나 정량적 자료로 입증된 바 없는 개인의 경험적 판단입니다. 특히 로컬 모델인 Qwen 3.6 27B와 35B를 동시에 운용하기 위해 필요한 하드웨어 제약과 실제 추론 속도의 재현 가능성은 확인이 필요합니다.

결과적으로 이 기록은 객관적 사실보다는 특정 모델 조합을 통해 체감 성능을 극대화하려는 사용자 수준의 운용 최적화 시도로 보입니다. 미국 빅테크의 반격이나 FOMO와 같은 감정적 소회 역시 기술적 근거보다는 시장의 흐름에 대한 개인의 주관적 해석에 가깝습니다. 따라서 해당 세팅의 실효성을 판단하기 위해서는 실제 구동 환경의 하드웨어 사양과 각 에이전트 간의 워크플로우 데이터가 추가로 뒷받침되어야 합니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

프로그래머를 해고하면 당신 회사는

3개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    프로그래머를 해고하면 당신 회사는

    AI 클라우드 사용 : 사람 쓰는것보다 토큰값이 많이든다! 로컬 AI (로우파라메터) 사용 : 왜이렇게 멍청해? 로컬 AI (하이파라메터) 사용 : 장비값이 왜이리비싸?

    의 무한반복에 빠지게 됩니다 ^^;; 사람이 생성하는 토큰이 아직 싸고 품질이 좋습니다.

    원문 보기
  2. 2

    요 몇일 로컬 LLM 상담이 몇건 오는데 사기 치긴 싫으니까 제대로 상담해주니 전부 자기 상상하곤 다른지 손서레를 치면서 가더군요.

    다들 생각보다 진짜로 아는게 잘 없는데

    • 그것보다 자신들 기술조차도 잘 모르는 회사가 많은데 로컬 LLM 도입 기술상담이나 해주고 다닐까.

    1회 상담 50만원!

    원문 보기
  3. 3

    한다면 신청할 회사가 정말 있을까용??

    다들 그냥 쓰던 클로드/지피티/재미나이한테 물어보고 말 거 같은데용 ㅋㅋㅋㅋ

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

최근 로컬 LLM 도입을 검토하는 기업들이 겪는 비용과 성능의 딜레마에 관한 기록입니다. 클라우드 AI의 토큰 비용 부담, 저파라미터 모델의 낮은 지능, 고파라미터 모델 구동을 위한 하드웨어 비용 문제는 기술적 제약과 맞물려 실제 운용 과정에서 빈번히 발생하는 시행착오입니다. 다만, 프로그래머를 대체했을 때의 비용 효율성이 구체적으로 어떻게 역전되는지에 대한 정량적 근거는 부족하므로, 이는 작성자의 경험적 판단으로 보입니다.

기업들이 자사 기술 스택에 대한 이해 없이 로컬 LLM 도입을 희망한다는 주장은 개별 상담 사례에 기반한 개인적 견해입니다. 특히 상담 과정에서 나타난 기업들의 인식 차이나 특정 금액의 상담 수요 가능성은 객관적으로 검증된 지표가 아니기에 확인이 필요합니다. 결국 기술적 실체보다 기대치에 의존해 도입을 결정하려는 경향이 실제 구현 단계에서 괴리를 만든다는 점이 핵심입니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

Qwen 3.6 plus 35B 를 쓰면 체감상 성능은

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    Qwen 3.6 plus 35B 를 쓰면 체감상 성능은 Gemini 2.5 flash 에서 3.0 Flash 사이의 어딘가이다

    분명히 응답/지식수준은 꽤 있고 툴 콜링도 그럭저럭 하고 잘 하는데 너무 환각에 휩게 휩쓸린다.

    하지만, 로컬에 일단 어쨋건 조금이라도 일을 할 수 있는 모델이 하나 있다는건 믿음직하다.

    원문 보기
  2. 2

    그리고 디자인은 확실히 GPT보단 잘한다. 그거하난 확실하다.

    GPT 가 조교를 하면 프롬을 잘 주면 리즈닝 너무하다가 함정에 빠지니 뭐니 말이 많은데 그냥 깡으로 해주는게 최고다.

    Qwen 3.6 plus 35b 는 좀 미흡해도 깡으로 해낸다. 그게 중요한것.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Qwen 3.6 plus 35B 모델의 성능을 Gemini 2.5 Flash와 3.0 Flash 사이로 체감했다는 Serio님의 기록은 개인적인 사용 경험에 기반한 주관적 지표입니다. 지식 수준과 툴 콜링 능력은 어느 정도 갖췄으나 환각 현상이 심하다는 지적 역시 공식 벤치마크가 아닌 실제 운용 과정에서 나타난 시행착오로 보입니다. 특히 디자인 역량이 GPT보다 뛰어나며 '깡'으로 밀어붙이는 수행력이 좋다는 주장은 정량적 근거가 부족하여 추가적인 확인이 필요합니다.

그럼에도 로컬 환경에서 일정 수준의 업무 수행이 가능한 모델을 확보했다는 점은 기술적 운용 측면에서 유의미한 기록입니다. 프롬프트 최적화나 리즈닝 과정의 함정보다 단순 실행력이 중요하다는 관점은 실제 로컬 LLM을 활용하는 사용자들의 실무적 고충을 반영합니다. 다만 이러한 성능 체감이 하드웨어 제약이나 양자화 설정에 따라 달라질 수 있으므로, 재현 가능성을 검증하기 위한 구체적인 환경 데이터가 보완되어야 할 것입니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1
    키미 2.6 벤치 좋아보이긴 하는데… 과연 1.1TB 파라메터를 어떻게 작업환경에 올릴까? Q4 양자화를 해도 270300G 정도고. Q2 를 해야 140150G 나오겠네. 이건 맥 256에도 Q2 안하면 안올라가잖아? 최소한 로컬장비에 몇만불 (몇천만원) 쓸 수 있는 회사들만 가능하겠지. 그림의 떡이구만.
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

키미 2.6의 벤치마크 성능과는 별개로, 1.1T라는 거대한 파라미터 규모를 로컬 환경에서 운용할 때 발생하는 하드웨어 제약에 주목할 필요가 있습니다. Q4 양자화 시 약 270~300GB, Q2 양자화 시 140~150GB의 메모리가 필요하다는 계산은 일반적인 양자화 공식에 기반한 수치로 보이나, 실제 구동 시의 오버헤드나 정확한 메모리 점유율은 공식 자료를 통해 추가 확인이 필요합니다.

다만 맥 스튜디오 256GB 모델에서도 Q2 양자화 없이는 모델을 올릴 수 없다는 주장과 고가의 장비 없이는 접근이 어렵다는 결론은 개인의 환경에 기반한 주관적 판단에 가깝습니다. 하드웨어 비용에 대한 언급 역시 시장 상황에 따른 추정치일 뿐, 공식적인 최소 사양 가이드라인이 제시되지 않은 상태에서는 경험적 기록으로 보는 것이 타당합니다. 결국 모델의 크기가 사용자 하드웨어의 한계를 상회하며 발생하는 실질적인 진입장벽을 지적한 글로 보입니다.

실험 맥락운용 관찰재현 포인트