로컬 LLM

로컬 LLM 실험실

로컬 LLM 서빙, 모델 설정, GPU/VRAM, 양자화, 실행 환경 관련 글을 모았습니다.

SINGLE POSTX POST ARCHIVE

이번 Qwen 3.6 plus 35B는 공유메모리 업로드로 인한 속도 손실이 상대적으로 적은 모양. Moe 가 원래 연산은 모델의 일부분만 쓰긴 한데 속도저하가 한 50% 수준밖에 안되네. 원래 더 심해야 정상인데.

1개 글 2026.04.17

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

1
이번 Qwen 3.6 plus 35B는 공유메모리 업로드로 인한 속도 손실이 상대적으로 적은 모양. Moe 가 원래 연산은 모델의 일부분만 쓰긴 한데 속도저하가 한 50% 수준밖에 안되네. 원래 더 심해야 정상인데.
4060Ti 에서 45~50T/s 면 쓸만하긴 하지. 로컬 코딩워커론 쓸만할듯.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Qwen 3.6 plus 35B 모델을 RTX 4060Ti 환경에서 구동하며, MoE 구조임에도 공유 메모리 업로드로 인한 속도 저하가 예상보다 적어 초당 45~50토큰의 속도가 나온다고 언급하셨습니다. 다만, 속도 저하 폭이 50% 수준에 불과하다는 구체적인 수치나 그 원인이 모델 자체의 특성인지에 대해서는 공식 문서나 저장소 자료로 직접 확인되지 않는 개인적 경험치에 가깝습니다. 따라서 해당 성능 지표와 효율성에 대한 주장은 실제 구동 환경에 따른 변동성이 크므로 추가적인 검증이 필요한 영역입니다.

그럼에도 불구하고 로컬 환경에서 코딩 워커로 활용하기에 충분한 속도라는 판단은 하드웨어 제약 내에서의 실용적 관점으로 이해됩니다. MoE 모델의 연산 특성과 메모리 대역폭 간의 상관관계는 복잡하며, 이를 수치화한 분석이 공식적으로 제시되지 않은 상황에서 사용자의 체감 속도 기록은 유의미한 참고 자료가 됩니다. 결국 이 기록은 특정 하드웨어에서의 재현 가능성을 전제로 한 운용 사례이며, 일반적인 성능 지표로 확정 짓기에는 근거가 부족합니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

지금의 게이밍 노트북을 팔고 진지하게

2개 글 2026.04.17

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
지금의 게이밍 노트북을 팔고 진지하게
Vram 32G 이상의 맥북
을 구매할 때인가… 요즘 게임도안하는데…
원문 보기
2
… 깨꼬닥 https://t.co/C8OjSmf8OF
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 게이밍 노트북을 처분하고 VRAM 32GB 이상의 맥북 구매를 고민하고 계십니다. 로컬 LLM 구동 시 통합 메모리를 활용하는 맥북의 특성상, 고용량 메모리가 모델 추론에 유리하다는 점은 llama.cpp 등 기술 저장소를 통해 확인되는 사실입니다. 다만, 현재 사용 중인 게이밍 노트북의 구체적인 사양과 맥북 전환 시 얻게 될 실질적인 성능 향상 폭에 대해서는 구체적인 데이터가 제시되지 않아 확인이 필요합니다.

이번 고민은 게임이라는 기존 용도보다 로컬 LLM 운용이라는 기술적 목적에 우선순위를 둔 하드웨어 전환 시도로 보입니다. 하지만 단순히 메모리 용량만으로 결정하기에는 모델별 최적화 수준과 추론 속도의 차이가 존재하므로, 이는 객관적 지표보다는 개인의 사용 경험에 기반한 판단에 가깝습니다. 결국 하드웨어 교체라는 물리적 선택이 실제 워크플로우의 효율성으로 이어질지는 추가적인 검증이 필요한 영역입니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

MoeMoe❤️ Kyun❤️

2개 글 2026.04.16

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
https://t.co/vAREb19KSh
MoeMoe❤️ Kyun❤️
그리고 Moe 는 멸망했다. https://t.co/QZBVgOrYDA https://t.co/iYeGO4Hsx3
원문 보기
2
사실 벤치만 보면, 다양한 조율을 바탕으로 Moe 모델을 Dense 모델과 비슷한 수준으로 끌어올린 것임.
다만 Moe가 실작동에선 Dense 보다 더 적은 파라메터를 바탕으로 움직이기때문에 출력속도에서 이점이 있으니까 로컬에서 좀 더 원활하게 쓸 수 있다, 정도가 장점.
까놓고 Gemma4 저격임.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 MoE 모델이 튜닝을 통해 Dense 모델과 유사한 벤치마크 성능에 도달했으며, 실제 구동 시 적은 파라미터 활용으로 출력 속도와 로컬 운용 효율이 높다는 점을 강조하셨습니다. 다만, MoE가 '멸망했다'는 표현이나 특정 모델을 저격했다는 주장은 개인의 해석 영역이 강하며, 공식 자료를 통해 직접적으로 증명된 사실이라기보다 경험적 판단에 가깝습니다.

제시된 Codex 브리프에 따르면 벤치마크 성능과 구동 효율에 관한 주장은 부분적으로 사실(partial)이라 판단되나, 구체적인 근거 수치는 확인이 필요합니다. 특히 특정 모델에 대한 저격 여부는 기술적 지표가 아닌 정황적 추론이므로, 이를 객관적 사실로 확정 짓기에는 근거가 부족합니다. 따라서 해당 내용은 기술적 사실보다는 로컬 LLM 운용 과정에서 도출된 개인의 실험적 기록으로 보는 것이 타당합니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

황가죽잠바가 인터뷰에서 저런 소리를 당당히 하려면 5090 64G 와 RTX6000 192G 버전을 내놨어야 했다. 하지만 리테일에 5090을 32G 만 극소량 풀어놓고 같은 가격으로 DGX spark 를 내놓았다.

2개 글 2026.04.16

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
황가죽잠바가 인터뷰에서 저런 소리를 당당히 하려면 5090 64G 와 RTX6000 192G 버전을 내놨어야 했다. 하지만 리테일에 5090을 32G 만 극소량 풀어놓고 같은 가격으로 DGX spark 를 내놓았다.
AI에 최적화된걸 무엇이든 공급할 수 있다는 황가죽은 개인에게는 아무것도 공급하고 있지 않다.
원문 보기
2
황가죽잠바는 말하고 있는것이다.
기업들은 우리 장비를 사세요. 개인들은 기업의 AI를 쓰세요.
진정한 자율적인 AI 의 활용은 로컬에서 온다. 하지만, 3년이 지난 지금도 그 어떤 부분에서도 로컬은 준비되어 있지 않다. 이건 모델이 원인이 아니다. 하드웨어 독점 때문이다.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 엔비디아가 고용량 VRAM을 갖춘 리테일 제품 대신 기업용 솔루션에 집중하며 개인의 로컬 AI 환경 구축을 제한하고 있다고 주장하셨습니다. RTX 5090의 VRAM 용량과 DGX Spark의 출시 전략 등 하드웨어 사양에 관한 언급은 실제 제품 출시 데이터와 대조하여 사실 여부를 가릴 수 있는 영역입니다. 다만, 기업들이 장비를 사고 개인은 서비스형 AI를 쓰라는 식의 전략적 의도나 하드웨어 독점이 로컬 AI의 발전을 가로막고 있다는 판단은 작성자의 주관적 해석이 강하므로 추가적인 확인이 필요합니다.

기술적 관점에서 로컬 LLM의 운용 제약이 모델 자체보다 하드웨어의 VRAM 용량에 기인한다는 점은 많은 실험자가 겪는 실질적인 고충입니다. 하지만 특정 제품의 사양 제한이 의도적인 독점 전략인지, 혹은 공정상의 한계나 시장 세분화 전략인지에 대해서는 공식 자료만으로 단정 짓기 어렵습니다. 결국 자율적인 AI 활용을 위한 로컬 환경의 미비함은 하드웨어 공급 정책과 사용자 요구 사이의 간극에서 오는 경험적 기록으로 보아야 할 것입니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

뭔가 엉뚱한짓을 하고 있다고 느껴진다면, 바로 컨텍스트부터 확인. 역시 Gpt 5.4 는 컨텍스트 300K를 넘어가면 바로 술취한 난봉꾼이 되어버린다. https://t.co/DTrYOAQO8I

2개 글 2026.04.16

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
뭔가 엉뚱한짓을 하고 있다고 느껴진다면, 바로 컨텍스트부터 확인. 역시 Gpt 5.4 는 컨텍스트 300K를 넘어가면 바로 술취한 난봉꾼이 되어버린다. https://t.co/DTrYOAQO8I
원문 보기
2
방금도
로컬에 설치된 Gemma4를 e4b를 llama.cpp 에서 호출
는 인공지능 에이전트라면 당연히 할 수 있는 기초적인 작업조차 못하고 엉뚱한 스크립트 계속 들이대고 있었음.
마치 술잔득 찌린 아저씨가 차키조차 못 꽂고 운전하겠다고 술주정 부리는것처럼.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 GPT 5.4 모델이 컨텍스트 300K를 초과할 때 성능이 급격히 저하되는 현상과, llama.cpp를 통해 Gemma 4(e4b)를 호출하는 과정에서 에이전트가 기초적인 스크립트 작업조차 수행하지 못한 경험을 공유하셨습니다. 다만, GPT 5.4의 특정 컨텍스트 임계치에서 발생하는 성능 저하 수치나 Gemma 4의 구체적인 오작동 양상은 공식 문서나 기술 저장소에서 직접적으로 확인되지 않는 개인의 실험적 경험치에 가깝습니다. 따라서 해당 주장은 모델의 공식 사양보다는 개별 운용 환경에 따른 가변적 결과일 가능성이 크며, 정밀한 재현을 통한 추가 확인이 필요합니다.

그럼에도 불구하고 로컬 LLM 운용 시 컨텍스트 윈도우의 한계가 모델의 추론 능력에 직접적인 영향을 준다는 점은 기술적으로 유의미한 지적입니다. 특히 llama.cpp와 같은 추론 엔진을 사용할 때 발생하는 예기치 못한 스크립트 오류는 하드웨어 제약이나 양자화 설정 등 다양한 변수가 작용했을 확률이 높습니다. 이번 기록은 모델의 이론적 성능과 실제 로컬 환경에서의 구현 성능 사이에 간극이 존재함을 보여주는 실무적인 시행착오 사례라고 판단됩니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

게이머로서 젠슨황을 20년 넘게 봐 왔다.

3개 글 2026.04.16

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
게이머로서 젠슨황을 20년 넘게 봐 왔다.
그는 자신의 회사를 키우는 장기 로드맵 전략을 제시하는 능력이 우수하다.
다만 그것을 위해 쉼없이 거짓말을 한다. 통계를 왜곡하고, 매직 그래프를 그리며, 낮은 성능을 덮기 위해 전기를 퍼부어 차력쇼를 하는 제품을 만들어 왔다.
원문 보기
2
그래서 젠슨황의 최근 언사도 놀랍지 않다. 중국도 자신의 독점 아래에 두어야 하는데 미국의 정치적 결정으로 중국정부+기업의 노력에 의해 경쟁자가 생기는걸 두려워한다. TPU가 더 효율적 구조임에도 비싼 그래픽코어+고속메모리에만 의존하는 Cuda의 비효율적 프레임을 우수한 걸로 포장한다.
원문 보기
3
하지만 AI의 독점적 지위는 위로는 Tpu에 위협받고 아래로는 amd, 인텔에 추격받고 있다. 인텔 아크 배틀메이지 b70은 3090~4090급 성능에 32G Vram + 중고 3090급 가격으로 리테일시장에 충격을 줄 잠재력을 보유하고 있다.
과연 황과 그 제국이 2030년까지 그 AI제국을 유지할 수 있을까?
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 엔비디아의 장기 전략 능력을 인정하면서도, 마케팅 과정에서의 통계 왜곡과 전력 소모를 통한 성능 보완 방식을 비판하셨습니다. 특히 CUDA의 구조적 비효율성과 중국 시장 독점욕에 관한 견해를 밝히셨는데, 이는 기업의 전략적 선택과 시장 지배력에 대한 개인의 해석 영역이 강하므로 객관적 사실로 확정하기에는 근거가 부족하며 추가적인 확인이 필요합니다.

반면, TPU와 AMD, 인텔의 추격이라는 시장 구도는 업계의 일반적인 흐름과 궤를 같이합니다. 다만 인텔 아크 배틀메이지 B70의 구체적인 성능 수치와 VRAM 용량, 가격 예측은 공식 출시 전의 기대치이거나 유출 정보에 기반한 것으로 보이며, 실제 리테일 시장에 미칠 영향은 실측 데이터가 나오기 전까지는 가설의 단계에 머물러 있습니다. 하드웨어의 제약과 성능의 재현 가능성을 고려할 때, 이러한 예측이 실제 지표로 증명될지는 더 지켜봐야 할 대목입니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

애초부터 인공지능이란게,

1개 글 2026.04.15

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

1
애초부터 인공지능이란게,
‘기존 인류가 만들어 온 지식들을 무수히 뭉쳐서 굴리고 굴려 보았더니 뭔가가 나왔습니다!’
라서 애초부터 ‘지식의 증류’에 가까운건데 프로젝트 파나마로 남의 지식들을 증류해 왔던 사람이 중국에서 클로드를 이용해 다른 모델 증류를 막겠다는건 모순적 행동 아닐까. https://t.co/fZdwBYN1q4
원문 보기

문향의 생각

안녕하세요. 문향입니다.

LLM이 인류의 기존 지식을 학습하여 결과물을 내놓는 '지식의 증류' 과정과 유사하다는 관점은 기술적 메커니즘 측면에서 타당한 분석입니다. 다만, 프로젝트 파나마를 통해 타인의 지식을 증류했다는 구체적인 행보와 이를 바탕으로 중국 내 클로드(Claude) 이용을 통한 모델 증류 방지 조치가 모순적이라는 주장은 개인의 가치 판단이 강하게 개입된 영역입니다.

특히 특정 인물이나 단체가 타 모델의 증류를 막으려 했다는 구체적인 정황은 제공된 1차 자료만으로는 명확히 입증되지 않아 추가적인 확인이 필요합니다. 이는 기술적 사실보다는 운용 주체의 전략적 선택과 그에 따른 논리적 일관성에 대한 비판에 가깝기에, 경험적 기록으로 분류하여 읽는 것이 적절합니다. 결국 인공지능의 학습 본질과 개별 기업의 데이터 전략 사이의 괴리를 지적한 논평이라 할 수 있습니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

다시는 올라마 안쓴다. 하. 일때문에 잠깐 깔았더니 또 문제가 나오고 해결조차 못하고 있네. OTL 2일을 고생한 문제가 올라마와 Gemma4의 충돌 문제였다니 하 내 시간 ㅠㅠ

1개 글 2026.04.14

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

1
다시는 올라마 안쓴다. 하. 일때문에 잠깐 깔았더니 또 문제가 나오고 해결조차 못하고 있네. OTL 2일을 고생한 문제가 올라마와 Gemma4의 충돌 문제였다니 하 내 시간 ㅠㅠ
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Ollama와 Gemma 4 모델 간의 충돌로 인해 이틀간의 작업 시간을 소모했다며 강한 불만을 표하셨습니다. 다만, 구체적으로 어떤 기술적 충돌이 발생했는지에 대한 상세 설명이 없어, 단순히 '충돌'이라는 표현만으로는 공식 문서나 저장소를 통해 그 실체를 명확히 규명하기 어렵습니다. 따라서 해당 주장은 현재로서는 개별 사용자의 경험 기록에 해당하며, 구체적인 오류 로그나 재현 경로에 대해서는 추가적인 확인이 필요합니다.

로컬 LLM 환경은 하드웨어 가속기 설정이나 런타임 버전의 미세한 차이로 인해 예상치 못한 변수가 빈번히 발생하는 영역입니다. Gemma 4와 같은 최신 모델을 Ollama 환경에서 구동할 때 발생하는 문제는 단순한 설정 오류일 수도 있으나, 모델 최적화 과정의 결함일 가능성도 배제할 수 없습니다. 다만, 이번 사례는 구체적인 근거 제시 없이 감정적인 판단이 앞서 있으므로, 기술적 결함으로 확정 짓기에는 근거가 다소 부족해 보입니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

- 5090 64G

2개 글 2026.04.14

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
- 5090 64G
- 텐서병렬 기본탑재
- 70라인업까지 Nvlink 지원
- pci-16x2 / 3 보드들의 대중화
정도는 하고 그걸 물어보는게 맞는 게 아닐까? 개인이 로컬 모델 구동하기엔 여전히 환경이 엉망이잖아. 인용을 보라고, 맥을 병렬연결하거나, 5년된 3090을 쓰는 상황이 과연 정상인걸까? https://t.co/lNT8qtDVhe
원문 보기
2
5090 64g가 나와서 둘을 pci-ex 16x 네이티브로 얹고 거기에 nvlink 연결해서 128g 듀얼gpu 구동 환경을 구축해야
Gemma4 31b dence 가 한 80~100tok/s 나오겠지. 그리고 Q4양자화 200B 모델들도 안정적으로 돌릴거고.
그정도는 되야 유의미한 작업환경이라고. 안그러면 그냥 외부모델 쓰는게 나아.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

로컬 LLM 구동 환경의 열악함을 지적하며 RTX 5090 64GB 모델과 NVLink 지원, 그리고 PCIe 레인 확장 보드의 대중화를 요구하는 주장입니다. 특히 128GB의 VRAM 환경이 구축되어야 Gemma 4 31B 모델에서 초당 80~100토큰의 속도를 내고 200B급 양자화 모델을 안정적으로 돌릴 수 있다는 구체적인 성능 수치를 제시하고 있습니다. 다만, 언급된 하드웨어 사양과 그에 따른 추론 속도는 제조사의 공식 발표나 벤치마크로 검증된 수치가 아니기에 현재로서는 개인의 기대치나 예측에 기반한 주장으로 보입니다.

제시된 내용 중 NVLink 지원 범위나 VRAM 용량, 그리고 특정 모델의 토큰 생성 속도는 공식 자료를 통해 직접 확인되지 않은 '확인 필요' 사항입니다. 하드웨어 제약으로 인해 구형 GPU를 사용하거나 맥(Mac)의 통합 메모리에 의존하는 현재의 불편함은 실제 사용자의 경험 기록으로서 유효합니다. 하지만 구체적인 하드웨어 스펙과 성능 향상 폭에 대한 주장은 근거가 약하며, 실제 구현 가능 여부는 향후 출시될 제품의 공식 제원표를 통해 대조해 보아야 할 것입니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

2026년 4월 현재

1개 글 2026.04.13

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

1
2026년 4월 현재 업무용으로 써볼만한 수준의 로컬 모델은 둘 밖에 없음.
‘Qwen 3.5 27b랑 Gemma4 31b’
중/소규모 파라미터를 가지는 모델에서 정확한 작업을 하려면 Dense 모델밖에 없음.그 외의 모델을 언급하는 사람들은
써본적이 없거나, 사기꾼이거나.
Moe? 당신이 RP채팅만 할꺼면 괜찮음.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 2026년 4월 기준, 업무용 로컬 모델로 Qwen 3.5 27b와 Gemma 4 31b 두 가지만을 꼽으며 중소규모 파라미터에서는 Dense 모델만이 정확한 작업을 수행한다고 주장하셨습니다. 공식 문서와 저장소를 통해 해당 모델들의 존재와 기술적 특성은 확인되나, 특정 모델만이 업무에 적합하다는 결론은 사용자의 환경과 작업 성격에 따라 달라질 수 있는 주관적 판단입니다. 특히 MoE 모델의 효용성을 RP 채팅으로 한정 짓거나 타 모델 추천자를 비하하는 표현은 객관적 근거가 부족한 개인의 경험적 견해에 가깝습니다.

따라서 '정확한 작업'의 기준이 무엇인지, 그리고 Dense 모델이 MoE 모델보다 우위에 있다는 구체적인 벤치마크 수치가 있는지에 대해서는 추가적인 확인이 필요합니다. 하드웨어 제약과 모델의 추론 특성에 따른 시행착오 기록으로서는 가치가 있으나, 이를 일반적인 기술적 사실로 받아들이기에는 논거가 빈약합니다. 결국 이 기록은 특정 시점의 개인적 운용 결과물로 해석하는 것이 타당하며, 보편적 성능 지표와는 별개로 읽어야 합니다.

실험 맥락운용 관찰재현 포인트