로컬 LLM

로컬 LLM 실험실

로컬 LLM 서빙, 모델 설정, GPU/VRAM, 양자화, 실행 환경 관련 글을 모았습니다.

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    터보퀀트 실험이 끝났네요. 에이전트에게 가장 최신 실험 저장소에 실험내용을 정리해서 보내라고 지시해 두었습니다.

    결론만 말하면

    1. 처리속도는 큰 이득이 없다. 미세하게 빨라지는 수준.
    2. 다만 메모리부분엔 큰 이득이 있다.

    입니다.

    원문 보기
  2. 2

    지금 개발서버의 그래픽카드는 3090X2 를 사용중입니다

    https://t.co/eVcChYFvBW

    의 설정들을 이용해 실험한 결과 터보3에서 최대

    3090 Q4로 192K 수준까지 3090X2 Q8로 262K 수준까지

    컨텍스트 확보에 성공했습니다.

    실제론 싱글은 100~100K, 멀티는 200K 수준 사용이 무난했습니다.

    원문 보기
  3. 3

    기존에 컨텍스트 상한이

    3090 싱글 40K / 3090 멀티 80K

    수준이었던 것을 생각하면 실사용 한 2.5배, 최대치 3.54.5수준으로 가용메모리를 늘릴 수 있었습니다. 속도는 오히려 소폭 상승하는데 말이죠. (35%)

    컨텍스트 상한이 늘어나니, 제작하는 컨텐츠의 양과 품질이 좋아집니다.

    원문 보기
  4. 4

    그러니 로컬머신 쓰시는 분들은 한번 적용을 권합니다.

    속도보단 기존에 메모리 공간 부족으로 못 쓰는 모델들을 사용가능하다는 점이 강점이 되겟죠.

    당장에 16G Vram 을 가진 카드들이 로컬 LLM 에 본격적으로 진입할 수 있을 겁니다.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 공유하신 터보퀀트 실험 결과에 따르면, 처리 속도의 이득은 미미하지만 가용 메모리 확보 측면에서는 유의미한 성과가 있었습니다. 특히 RTX 3090 환경에서 컨텍스트 상한이 기존 대비 최대 3.5~4.5배까지 확장되어, 싱글 구성 시 192K, 멀티 구성 시 262K 수준까지 확보했다는 구체적인 수치를 제시했습니다. 다만, 이러한 수치가 특정 설정값과 하드웨어 조합에서 도출된 개별적 결과인지, 혹은 보편적으로 재현 가능한 수치인지는 공식 자료를 통해 완전히 검증되지 않았으므로 추가적인 확인이 필요합니다.

메모리 효율 개선이 16GB VRAM 사용자들의 로컬 LLM 진입 장벽을 낮출 것이라는 전망은 합리적인 추론으로 보입니다. 하지만 컨텍스트 상한의 증가가 실제 콘텐츠의 품질 향상으로 직결된다는 주장은 주관적인 경험 영역에 해당하며, 정량적인 지표로 증명된 부분은 아닙니다. 결과적으로 이번 기록은 기술적 표준이라기보다 특정 환경에서의 운용 최적화 사례로 읽는 것이 적절하며, 실제 적용 시에는 사용자 환경에 따른 편차가 클 수 있음을 유의해야 합니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

터보퀀트 한 이틀 작업중입니다.

1개 글

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    터보퀀트 한 이틀 작업중입니다. 우수한 저장소가 있어서 작업속도를 높이고 있어요.

    https://t.co/eVcChYFvBW

    저도 해당 저장소의 내용과 논문내용을 통해 작업한걸 곧 보여드릴 수 있을 거 같네요.

    적용되면 오픈소스+로컬도 좀 많이 개선되겠죠. 아직 대형 프로바이더들 따라갈건 아니지만요.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 최근 이틀간 터보퀀트(TurboQuant) 작업을 진행하며 특정 저장소와 논문을 참고하고 있다고 밝혔습니다. 해당 기술이 적용될 경우 로컬 및 오픈소스 LLM 환경이 개선될 것이라는 전망을 제시했으나, 이는 개인의 기대치가 반영된 판단으로 보입니다. 특히 대형 프로바이더와의 격차를 언급하며 상대적인 성능 향상을 예상한 부분은 구체적인 수치나 벤치마크가 제시되지 않아 현재로서는 주관적인 의견에 가깝습니다.

다만, 특정 저장소를 통해 작업 속도를 높이고 있으며 곧 결과물을 공개하겠다는 계획은 개인의 작업 진행 상황을 기록한 경험적 사실로 읽힙니다. 하지만 언급된 저장소의 내용이 실제 로컬 환경의 성능 개선으로 직결될지는 공식적인 검증 단계가 필요하며, 현재로서는 그 실효성에 대해 '확인 필요' 상태라고 판단합니다. 결국 이번 기록은 기술적 구현 가능성을 탐색하는 개인의 실험 과정으로 보이며, 실제 재현 가능성과 성능 향상 폭은 추후 공개될 결과물을 통해 검증되어야 할 것입니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    Qwen 3.5 27b 를 3090에 올려서 온도 0.6 추론 코딩세팅 하고 쓰는데, Vram의 한계로 컨텍스트를 100K 정도밖에 쓸 수 없음. 아마 쥐어짜면 130K~140K 까진 쓸꺼같은데 OOM 의 공포가 있음. 결국, 최소 32G Vram 을 쓰는거니 맥 아니면 5090을 가야만 함.

    다들 어떻게 잘 쓰는지 궁금하기만 하다.

    원문 보기
  2. 2

    그래도, 대충 Gemini-Cli 등장했을때 열심히 쓰던 Gemini 2.5 Pro 보단 월등히 나음.

    Gemini 3 pro : 실력은 비슷하지만 정확성이 좀 더 높은 Gpt 5.1~2 수준, 클로드는 안써봤지만 Opus 4.5 보다 조금 떨어지는 정도가 아닐까 싶음.

    부족한건 컨텍스트. 역시 램이 필요해. 크고 아름다운 V램이.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

RTX 3090 환경에서 Qwen 3.5 27B 모델을 운용하며 겪는 VRAM의 물리적 한계와 그로 인한 컨텍스트 제약은 로컬 LLM 사용자라면 공감할 실질적인 고충입니다. 100K 이상의 컨텍스트 확보 시 발생하는 OOM(Out of Memory) 위험과 이를 해결하기 위해 32GB 이상의 VRAM을 갖춘 하드웨어로의 전환이 필요하다는 분석은 하드웨어 제원상 타당한 판단입니다. 다만, 구체적인 컨텍스트 임계치인 130K~140K 도달 가능 여부는 사용자의 최적화 설정에 따라 달라질 수 있는 경험적 수치입니다.

반면, 타 모델과의 성능 비교 부분은 객관적 지표보다는 개인의 주관적 체감이 강하게 반영되어 있어 주의 깊은 접근이 필요합니다. Gemini 3 Pro나 GPT 5.1~2, Claude Opus 4.5 등 구체적인 버전의 성능을 비교한 주장은 공식 벤치마크 자료로 직접 확인되지 않는 영역이므로 '확인 필요' 단계의 개인적 견해로 분류됩니다. 결국 이 기록은 최신 모델의 성능적 만족감과 하드웨어의 물리적 제약 사이에서 갈등하는 로컬 운용자의 전형적인 시행착오를 보여줍니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    Qwen 3.5가 확실히 괜찮은 성능이고 특히 27b 가 꽤나 인상적인 성능을 내주다보니 이래저래 바로 튜닝이 많이 되네요.

    https://t.co/JIaJ9ihDbN

    이걸 써보고 있습니다. 에이전트 하나에게 들려주니, 최신 모델은 아니지만 그래도 따박따박 일을 잘 하네요.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Qwen 3.5 27B 모델이 인상적인 성능을 보여주며 다양한 튜닝 버전이 출시되고 있다는 점은 기술적 흐름상 타당해 보입니다. 다만, 해당 모델이 에이전트로서 일을 잘 수행한다는 구체적인 체감 성능은 작성자의 개인적인 경험 기록이며, 이를 객관적으로 입증할 공식 지표나 벤치마크 자료는 현재 제시되지 않아 확인이 필요합니다.

로컬 LLM의 특성상 하드웨어 환경과 프롬프트 설정에 따라 재현 가능성이 크게 달라지므로, 단순히 '일을 잘한다'는 표현만으로는 모델의 실질적 효용성을 판단하기 어렵습니다. 따라서 이번 기록은 특정 튜닝 모델의 운용 결과에 대한 주관적 소회로 읽어야 하며, 실제 성능 검증을 위해서는 구체적인 태스크 수행 결과물이 뒷받침되어야 합니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

아으 ollma 버리고 이틀 방황해서 llama.ccp에 안착.

1개 글

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    아으 ollma 버리고 이틀 방황해서 llama.ccp에 안착.

    Wsl2 우분투에 탑재했는데 어찌저찌 잘 돌아가고 있네요.

    뭐 어찌보면 별채 버리고 본가로 돌아간 셈인가요.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Ollama를 떠나 이틀간의 시행착오 끝에 llama.cpp를 WSL2 우분투 환경에 구축하여 구동에 성공하셨습니다. llama.cpp가 많은 로컬 LLM 구동기의 기반이 되는 저수준 라이브러리라는 점에서 '본가로 돌아왔다'는 비유는 기술적 맥락에서 타당한 판단으로 보입니다. 다만, 구체적으로 어떤 설정 오류나 성능 저하가 Ollama를 포기하게 만들었는지에 대한 상세 사유는 원문에 나타나 있지 않아 확인이 필요합니다.

WSL2 환경에서 llama.cpp가 정상 작동하고 있다는 점은 개인의 경험적 기록이며, 이는 하드웨어 가속 설정이나 의존성 해결 과정이 수반되었음을 시사합니다. 하지만 단순히 '어찌저찌 잘 돌아가고 있다'는 표현만으로는 실제 추론 속도나 메모리 효율이 최적화되었는지 객관적으로 검증하기 어렵습니다. 결과적으로 이번 기록은 특정 도구의 우위보다는 사용자 환경에 따른 재현 가능성과 선택의 문제로 읽어야 할 것입니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

Codex 5.3 이 박사님인 이유

1개 글

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    Codex 5.3 이 박사님인 이유

    Sglang에 Embeddinggemma 가 안된다니까

    OpenAI-compatible를 이용해 Embeddinggemma 만 쓰는 임베딩 서버를 하나 뚝딱 만들고는

    ‘이거쓰면대여’

    이건 초딩 잼미니는 불가능한 무빙인데스와 https://t.co/hiIcivPGx6

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

이번 사례는 Sglang 환경에서 Embeddinggemma 모델의 직접적인 구동이 어렵다는 제약 상황을 해결하기 위해, OpenAI 호환 서버를 구축하여 우회적으로 임베딩 기능을 구현한 기술적 시도입니다. Sglang의 호환성 문제는 기술적으로 발생 가능한 실무적 제약이며, 이를 별도의 서버로 분리해 해결한 방식은 로컬 LLM 운용 과정에서 나타나는 전형적인 문제 해결 과정으로 보입니다. 다만, 원문에서 언급된 '박사님'이라는 칭호나 특정 수준의 숙련도에 대한 판단은 주관적인 감상에 해당하므로 사실과 분리하여 읽을 필요가 있습니다.

구체적으로 Embeddinggemma의 작동 여부와 OpenAI 호환 서버 구축 가능성은 기술적으로 확인되는 영역이지만, 이 과정이 특정 대상에게 불가능한 수준의 작업이었다는 주장은 객관적 근거가 부족한 개인적 평가입니다. 또한, 해당 해결책이 최적의 경로였는지 혹은 다른 대안이 없었는지에 대해서는 공식 자료를 통해 검증되지 않았으므로 추가적인 확인이 필요합니다. 결과적으로 이번 기록은 공식 문서보다는 실제 운용 과정에서 겪은 시행착오와 그에 따른 임시 해결책을 공유한 경험적 사례로 보는 것이 적절합니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

Ollama 삭제.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    Ollama 삭제. 모든 모델들을 자기 문법으로 튜닝해야 LLM 모델 서빙을 하는 서비스를 쓸 이유가 없네요. 성능하락도 심하고.

    Lmstudio 가 불투명하다 했더니 여기는 더 삼천포였구만요.

    윈도우 기반 모델 테스트는 Lmstudio로, 에이전트들 모델 서빙은 SGLang으로 교체.

    테스트 진행중입니다.

    원문 보기
  2. 2

    반대로 Lmstudio는 0.4에서 지웠는데 금새 0.46을 만들어 놨네요. 깔아보니 최근에 필요한 다양한 새 기능들을 금방금방 붙여놨고요.

    신규 진입을 윈도우 기반으로 할거라면 Lmstudio 쓰세요.

    전 모델 테스트베드로만 쓸거같지만.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Ollama의 모델 튜닝 방식과 성능 하락을 이유로 해당 툴을 삭제하고, 에이전트 서빙을 위해 SGLang으로 교체하셨습니다. 다만, Ollama가 자체 문법으로 튜닝을 강제하여 성능이 하락했다는 주장은 공식 문서나 기술 저장소에서 직접적으로 확인되지 않는 개인의 경험적 판단이므로 추가적인 검증이 필요합니다. 윈도우 환경의 모델 테스트 용도로 LM Studio를 추천하며, 최근 업데이트를 통해 기능이 개선되었다고 평가하셨습니다.

LM Studio의 버전 업데이트(0.4 → 0.46)와 신규 기능 추가는 실제 배포 이력을 통해 확인 가능한 사실입니다. 하지만 특정 툴이 '불투명하다'거나 '삼천포로 빠졌다'는 표현은 정량적 지표가 없는 주관적 견해에 가깝습니다. 결과적으로 이번 기록은 로컬 LLM 운용 과정에서 겪은 시행착오와 툴 간의 효율성 비교를 담은 개인의 기술 실험 기록으로 보는 것이 적절합니다.

실험 맥락운용 관찰재현 포인트

SINGLE POSTX POST ARCHIVE

한쪽은 회사이름 걸고 고발하는데

1개 글

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    한쪽은 회사이름 걸고 고발하는데 다른쪽은 SNS 에서 이러는거 좀 짜치긴 함.

    근데 별계로 LLM은 시작부터 돋거논쟁을 피할 수 없긴 함.

    하지만 어쩌랴.

    우리 모두 우리의 지식은 선조로부터 돋거한 것인걸…

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

해당 게시글은 특정 기업의 공식 고발과 SNS상의 대응 방식 차이에 대한 개인적 감상을 다루고 있습니다. 다만, 대응 방식의 적절성에 대한 판단은 주관적인 영역이며, 이를 뒷받침할 객관적인 1차 자료는 확인되지 않아 '확인 필요' 상태로 분류됩니다.

기술적 관점에서 LLM의 학습 데이터 출처와 관련된 '독거(독점/도용) 논쟁'은 모델의 학습 원리상 피할 수 없는 본질적인 쟁점입니다. 이는 구글의 Gemma나 llama.cpp와 같은 공개 프로젝트의 데이터 처리 방식에서도 나타나는 현상이지만, 작성자가 언급한 '선조로부터의 지식'이라는 비유적 결론은 기술적 사실보다는 개인의 철학적 견해에 가깝습니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    LLM 등장 이후로 정말 많은 일을 LLM 으로 하고 있는데요.

    매번 느끼지만 싱글턴으로 작업을 하는게 멀티턴보다 결과물이 월등히 낫다고 생각하고 컨텍스트가 커진 지금도 그 생각은 변함이 없어요.

    잘 짜여진 대규모 프롬을 한방에 집어넣는게 결과물이 좋고, 티기타카는 노이즈가 끼더라구요.

    원문 보기
  2. 2

    그래서 만약 내 클로드/지피티/잼민이가 헛소리를 하고 있다고 생각하시면

    세션을 새로 열기

    가 가장 빠른 해결책이 될 가능성이 높다고 생각해요.

    전 웹에선 한 포스트/세션에서 10번 이상 입력을 하지 않고 있어요. 그 이상 될 거 같으면 요약하고 다음 세션에서 처리하구요.

    원문 보기
  3. 3

    근데 저만 그렇게 생각한건 아닌거같더라구요.

    https://t.co/FEkkgXgP6y

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

LLM 운용 시 멀티턴보다 정교하게 짜인 싱글턴 프롬프트가 더 나은 결과물을 낸다는 주장은 개인의 경험적 판단에 가깝습니다. 컨텍스트 윈도우가 확장되었음에도 대화가 길어질수록 노이즈가 발생한다는 점은 많은 사용자가 체감하는 현상이지만, 이를 뒷받침할 객관적인 기술 지표나 공식 자료는 확인되지 않아 '확인 필요' 상태로 분류됩니다.

다만, 세션을 새로 시작하는 것이 모델의 오작동을 해결하는 빠른 방법이 될 수 있다는 점은 일부 기술적 근거가 존재합니다. 이는 모델의 주의 집중(Attention) 메커니즘과 컨텍스트 관리 방식에 따른 특성으로 볼 수 있으며, 실제 로컬 LLM 운용 환경에서도 재현 가능한 효율적 관리 전략입니다. 결국 이 논의는 모델의 한계를 인지하고 이를 우회하려는 실무적인 시행착오의 기록이라 판단됩니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    gpt-oss-120b 이후 서구권 빅테크에서 오픈소스 나온게 있나요?

    반대로 중국 테크기업에선 우수수 쏟아지죠. 근데, 그거 믿고 쓸 수 있을까요?

    한때 로컬지향이었고, 지금도 필요한건 최대한 로컬로 돌리지만 제 대답은 No입니다.

    개인용 로컬 LLM은 아직 머나먼 이야기 😭

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 서구권 빅테크의 오픈소스 부재와 중국산 모델의 신뢰성 문제를 제기하며, 개인용 로컬 LLM의 실현 가능성을 부정적으로 평가하셨습니다. 구글의 Gemma와 같은 실제 공개 모델이 존재함에도 서구권의 오픈소스가 없다고 단언한 부분은 사실관계 확인이 필요하며, 중국산 모델의 신뢰성 문제는 객관적 지표보다 주관적 판단에 가깝습니다.

다만, 하드웨어 제약으로 인해 고성능 모델을 로컬에서 구동하기 어렵다는 경험적 고충은 llama.cpp 등의 프로젝트를 통해 기술적 한계가 드러나는 지점이기도 합니다. 결과적으로 개인용 로컬 LLM이 머나먼 이야기라는 결론은 기술적 사실보다는 현재의 운용 환경에서 느끼는 체감상의 제약에 기반한 기록으로 보입니다.

실험 맥락운용 관찰재현 포인트