로컬 LLM

로컬 LLM 실험실

로컬 LLM 서빙, 모델 설정, GPU/VRAM, 양자화, 실행 환경 관련 글을 모았습니다.

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    https://t.co/57PwF2EvAt https://t.co/gt0RJhZlqX

    LG는 오래전부터 열심히 노력해 왔고, 꾸준히 노력하는 모습은 보기 좋다. 다만, Qwen 3.5 27b보다 성능이 빠진다면 접근 방법을 바꿔야 한다.

    당장 할 수 있는 건, 아파치 2.0. 본인들이 홍보를 할 수 없다면 Unsloth 에라도 태워야 함.

    원문 보기
  2. 2
    둘 다 만들 수 없다면, Moe 보다 정확한 작동과 반응을 보장하는 Dense 모델을 선택하는 것은 맞는 방향. 33B 모델이라 24G Vram 카드에 올릴 수 없다면 시작부터 32G가 넘는 맥/5090 이상에 접근하는 것도 방법. 다만, 섞고 섞는 GGUF 가 대세인 지금 라이센스를 제한하면 아무도 쓰지 않을 것임.
    원문 보기
  3. 3
    다만 외산 모델을 쓰기 꺼려하는 + 한글 한국어 한국적 지식 활용에 좀 더 능숙한 (Gemma4는 한글을 너무 잘 쓴다.) 모델이 필요한 한국 기업/기관들에는 얼마든지 수요가 있고 그쪽을 잘 파고들었으면 좋겠다. 그러기에 더더욱 한국 기업들이 접근할 수 있도록 라이선스 개방이 필요하지만…
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

LG의 모델 개발 노력은 인정되나, Qwen 3.5 27B 대비 성능 열위 시 접근 방식을 수정해야 한다는 Serio님의 지적은 기술적 관점에서 유효한 제언입니다. 특히 아파치 2.0 라이선스 도입이나 Unsloth 활용, 그리고 MoE보다 Dense 모델을 선택하는 방향성은 효율적인 모델 운용을 위한 실무적 대안으로 보입니다. 다만, 특정 하드웨어(맥, RTX 5090 등) 접근성이나 GGUF 포맷의 대세론과 라이선스 제한의 상관관계는 개인의 경험적 판단에 가깝기에 공식적인 데이터로 검증된 부분은 아닙니다.

한국어 특화 모델에 대한 국내 기업 및 기관의 수요가 존재한다는 점은 시장의 일반적인 흐름과 일치하지만, 구체적인 수요 규모나 라이선스 개방이 가져올 직접적인 효과는 추가적인 확인이 필요합니다. Gemma 4의 한국어 성능에 대한 언급 역시 사용자 경험에 기반한 주관적 평가이므로, 객관적인 벤치마크 지표를 통한 교차 검증이 선행되어야 합니다. 결국 기술적 지향점과 라이선스 정책의 유연함이 맞물려야 실질적인 생태계 확장이 가능할 것으로 보입니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    Gemini 3.1 이 높은 벤치와 다르게 신뢰/지속성이 떨어지는 것을 이해하는 것은 어렵다.

    하지만, https://t.co/2jhtzqZCiO 을 보면 짐작은 할 수 있다. 구글은 AI를 백화점으로 만들고 있다.

    백화점에는 모든게 있다. 하지만 스탈린이 이렇게 말했지. ‘동무는 전차에 백화점을 차리려 하시오?’

    원문 보기
  2. 2

    통합은 매력적. LLM의 뜻을 생각하면 더욱 AI에 모든 걸 엮고 싶을 것이다. 하지만 모든 것을 할 수 있다는 것은, 아무것도 할 수 없다는 말과 같다.

    Lagacy와 작별하는 것은 어렵지만, AI만 떼서 독립시키는 것은 충분히 가능할 것이다.

    그들은 언제쯤 이걸 알아차릴까. ‘겨울전쟁’에서 패배하면?

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Gemini 3.1의 벤치마크 성적과 실제 체감 성능 사이의 괴리, 그리고 구글의 통합 전략을 '백화점'에 비유한 분석입니다. 구글이 AI 모델에 지나치게 많은 기능을 통합하려 한다는 주장은 공식 문서상으로 드러난 모델의 다각적 기능 확장 추세와 궤를 같이하지만, 이것이 신뢰성과 지속성 하락의 직접적인 원인이라는 점은 기술적으로 명확히 입증되지 않은 작성자의 해석입니다. 특히 '전차에 백화점을 차리려 하느냐'는 비유를 통한 효율성 비판은 정성적인 의견에 가깝기에 구체적인 데이터 기반의 확인이 필요합니다.

레거시 시스템과의 결별 및 AI의 독립 가능성 역시 실현 가능한 시나리오이나, 현재 구글의 제품 생태계 구조상 이를 강행할 가능성은 확인되지 않은 영역입니다. 모델의 범용성이 오히려 전문성을 해치고 있다는 지적은 로컬 LLM 운용 과정에서 겪는 전형적인 시행착오와 맞닿아 있으나, 이를 '겨울전쟁'과 같은 패배의 전조로 연결 짓는 것은 논리적 비약이 포함된 주관적 판단입니다. 결국 이 글은 기술적 지표보다 실제 운용 경험에서 오는 괴리감을 토로한 기록으로 보는 것이 적절합니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    바이브코딩 확산, GGUF 가 부상하면서 낡고 구닥다리라 생각했던 llama.cpp 가 다시 로컬의 메인으로 복귀하는걸 보는 건 꽤 신선한 경험임. Lmstudio의 개선, 미래라 생각되었던 vllm과 sglang이 발전이 더뎌지는 것도 의미가 있지만

    Ollama 는 너무 심각하게 망가졌다. 다시 회복하지 못할 정도로.

    원문 보기
  2. 2
    그래서 타임라인에 벤치 결과나 구축 경험을 들고 오는 사람들이 Ollama를 언급하면 일단 생안경을 끼고 보게 됨. 안돌아가거나 돌아가도 엉망일게 뻔해서. 엉망인 자료를 들고오는 사람들은 그나마 낫다. 자료를 조작하거나 타인의 llama.cpp 자료를 Ollama라고 들고오는 거짓말쟁이들이 판을 친다.
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

최근 GGUF 포맷의 부상과 함께 llama.cpp가 다시 로컬 LLM의 중심축으로 돌아오는 흐름이 관찰됩니다. LM Studio의 개선이나 vLLM, sglang의 발전 속도 변화 등은 기술적 생태계의 변동으로 해석할 수 있으나, Ollama의 상태가 회복 불가능할 정도로 망가졌다는 주장은 구체적인 지표가 제시되지 않은 개인의 경험적 판단에 가깝습니다. 특히 타인의 자료를 조작해 게시하는 이들이 많다는 지적은 정황상의 추측일 뿐, 공식적으로 검증된 사실이 아니기에 추가적인 확인이 필요합니다.

결국 이 기록은 특정 런타임의 성능 저하와 그로 인한 사용자 경험의 불신이 어디까지 도달했는지를 보여주는 시행착오의 일종입니다. 벤치마크 결과의 신뢰성 문제는 로컬 LLM 운용 환경의 파편화와 재현 가능성의 한계에서 비롯된 갈등으로 보입니다. 기술적 근거가 부족한 비판일지라도, 실제 구동 환경에서 느끼는 괴리가 크다는 점은 시사하는 바가 큽니다. 따라서 현재의 논란은 단순한 도구의 우열을 넘어, 데이터의 투명성과 재현성 확보가 시급함을 시사합니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

예상한게 얼추 맞았군.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    예상한게 얼추 맞았군.

    Gemini 3 Flash 의 위치를 잘 보세요.

    로컬이 저 지점을 지나가면 그때부턴 본격적으로 쓸만해 질 겁니다. 내 컴퓨터에서 Gemini3 Flash 급의 모델이 컨텍스트 100K 포함해서 Vram 16G 안쪽으로 돌아가는 때부터가 본격적인 퍼스널 LLM의 시작이라 생각합니다. https://t.co/L5BVbKO6iT

    원문 보기
  2. 2

    라우팅을 통해 관리와 어려운건 프로바이더 모델이, 가벼운건 로컬모델이 하는 이중화 체계가 한동안 이어지겠지만 중요한건 소비전력이 적은 로컬로 AI의 무게추가 조금씩 이동하면서 더 가볍게 그리고 더 생활 속에서 AI가 작동하게 될 것이란 겁니다.

    대충 올해 여름~가을쯤일까요.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Gemini 3 Flash 수준의 모델이 100K 컨텍스트를 포함해 VRAM 16GB 내에서 구동되는 시점을 개인용 LLM의 실질적 시작점으로 보셨습니다. 다만, 특정 모델의 성능 지표가 로컬 환경의 하드웨어 제약 내에서 정확히 구현될 시점이나 그 구체적인 기준은 공식 자료로 완전히 입증되지 않은 개인의 기술적 판단 영역입니다. 특히 해당 현상이 올해 여름이나 가을쯤 현실화될 것이라는 예측은 구체적인 근거가 부족하여 확인이 필요한 주장입니다.

현재 AI 생태계가 프로바이더 모델과 로컬 모델의 이중화 체계로 흐르고 있다는 분석은 기술적 흐름과 궤를 같이합니다. 하지만 소비전력이 낮은 로컬 모델로 무게중심이 이동하며 생활 밀착형 AI가 구현될 것이라는 전망은 실제 하드웨어 최적화 속도와 모델 경량화 효율에 따라 결과가 달라질 수 있는 경험적 추론입니다. 결국 이 논의의 핵심은 이론적 가능성보다는 실제 로컬 환경에서의 재현 가능성과 하드웨어 제약을 어떻게 극복하느냐에 달려 있습니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

일본분들이 이렇게 라니 고 선생을 좋아할지 몰랐다.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    일본분들이 이렇게 라니 고 선생을 좋아할지 몰랐다.

    매년 20만마리씩 사냥하는거 한 10만마리정도 수출해서

    일본의 시카노코노코노코 선생이랑

    좋은 승부를 하게하고싶다. https://t.co/7Q1HjfuxWE

    원문 보기
  2. 2

    일본분들도 사진 말고 라니 고 선생을 길에서 만나면 바로 한국인의 마음과 같아질 것이고 그럼 우리는 더욱 유대감과 동질감을 가질 수 있게 될 것

    일본 산야에 라니 고 선생의 울음소리가 울려퍼질걸 생각하니 벌써부터 가슴이웅장해지네

    https://t.co/QXaiQ4OE98

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

해당 게시글은 일본 내 특정 캐릭터에 대한 관심과 한국의 야생 동물 포획 현황을 엮어 수출이라는 파격적인 제안을 던지고 있습니다. 매년 20만 마리를 사냥한다는 수치적 주장은 일부 공식 자료를 통해 부분적으로 확인되나, 이를 일본의 특정 콘텐츠와 연결해 수출하겠다는 구상은 구체적인 실행 계획이 없는 개인의 희망 사항에 가깝습니다. 특히 '시카노코노코노코 선생'과의 승부라는 표현은 기술적 분석보다는 유희적 관점이 강하므로, 실제 행정적 가능성 여부는 확인이 필요합니다.

후반부의 유대감 형성이나 정서적 공감에 관한 내용은 전적으로 작성자의 주관적 판단이며, 이를 뒷받침할 객관적 근거는 부족합니다. 로컬 LLM 운용 기록의 관점에서 볼 때, 이 텍스트는 사실 관계의 검증보다는 특정 상황에 대한 비유와 감정적 서술이 주를 이루는 경험적 기록으로 읽힙니다. 따라서 제시된 주장의 상당 부분은 논리적 추론보다는 개인의 감상에 의존하고 있으며, 실질적인 데이터 기반의 주장이라고 보기에는 근거가 약합니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    LLM 로컬 모델을 제대로 사용해보고싶은 사람들에게 입장권은 맥이 아님. AI 도 맥 최적화가 아님. 입장권이란

    “5090”

    결국에는 돌고 돌아 5090으로 오게 될 것임. 돈좀 있으면 블렉웰 6000이나. 다들 물고빠는 M5max는 이제 연산이 3090급임. 메모리 통합형이니 좀 더 큰 모델을 넣을 수 있을 뿐.

    원문 보기
  2. 2

    그래서 로컬LLM을 말하고 있는 사람들의 기술 이해는 너무 쉽게 드러난다.

    서빙에 무슨 하드웨어를 쓰고 있는지? 서빙은 어떻게 하고 있는지? 어떤 모델을 서빙하는지?

    요 셋만 체크하면, 얼마나 알고 있는지 실제 업무에 활용하고 있는지를 바로 확인해 볼 수 있음.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

로컬 LLM 운용의 핵심이 하드웨어 성능에 있다는 점은 분명하며, 특히 NVIDIA GPU의 연산 능력은 업계 표준에 가깝습니다. 다만 RTX 5090이나 블랙웰 6000이 절대적인 '입장권'이라는 주장과 M5 Max의 연산력이 RTX 3090급이라는 구체적인 수치는 공식 벤치마크로 완전히 검증되지 않은 개인의 판단 영역입니다. 하드웨어 최적화 수준에 따라 체감 성능이 달라질 수 있으므로, 이 부분은 실제 구동 환경에 따른 경험적 기록으로 보아야 하며 추가적인 데이터 확인이 필요합니다.

기술적 이해도를 하드웨어 구성과 서빙 방식, 모델 선택이라는 세 가지 기준으로 판가름하겠다는 시각은 실무 중심의 날카로운 지적입니다. 하지만 이는 정성적인 평가 기준일 뿐, 이를 통해 업무 활용 능력을 확정 지을 수 있다는 논거는 객관적 근거가 부족한 주관적 견해에 가깝습니다. 결국 로컬 LLM의 실효성은 단순한 장비의 제원을 넘어, 실제 구현하려는 서비스의 목적과 재현 가능성에 달려 있다고 판단됩니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    어제 귀가해 집의 7900GRE에게 qwen 3.6 q4를 올려줬더니 공유메모리에 물리면서 연산이 cpu 락-인이 되버림.

    결국 vram 에 전부 올릴수있는 q2 버전만 제대로 작동가능했음.

    Gemma 4 e4b Q4 75t/s (불칸) 50t/s (Rcom) Qwen 3.6 Q2 50 t/s (불칸)

    공유메모리로도 쓸만하다는 사람들은 뭘까…? 🤔

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 AMD Radeon RX 7900 GRE 환경에서 Qwen 3.6 Q4 모델 구동 시, VRAM 부족으로 인해 공유 메모리가 할당되며 CPU 락-인 현상이 발생했다고 기록했습니다. VRAM 내 적재가 가능한 Q2 버전과 Gemma 4 e4b Q4 모델의 추론 속도(t/s)를 구체적으로 제시하며 하드웨어 제약에 따른 성능 차이를 수치화한 점은 유의미한 실험 기록입니다. 다만, 특정 백엔드(불칸, Rcom)에서의 속도 측정값은 개별 시스템 환경에 따라 변동성이 크므로 일반적인 벤치마크로 확정 짓기에는 무리가 있습니다.

공유 메모리 활용의 실효성에 대한 의문은 개인의 경험적 판단이며, 이를 일반화하기에는 근거가 부족합니다. 공유 메모리 사용 시 성능 저하가 발생하는 것은 기술적으로 타당하나, "쓸만하다"는 기준은 사용자마다 다르기에 공식 자료를 통해 검증될 수 있는 영역이 아닙니다. 따라서 공유 메모리 운용 효율에 대한 주장은 개별 사례로 보아야 하며, 보편적인 성능 지표로 수용하기 위해서는 추가적인 교차 검증이 필요합니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

  1. 1

    5090 x 2 면 달러 기준으로 쌀때라도 얼추 9천에서 1만달러는 들였을 터인데 그 돈을 들이고도 가용 Vram이 64G라는건 좀 안타까운 이야기지만요.

    그래도 저보다 50Tok/s는 빠르네요.

    Gemini 3.1대신 투입해볼까.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 RTX 5090 2대를 운용하며 발생하는 비용 대비 VRAM 용량의 한계와 추론 속도에 대해 언급하셨습니다. 하드웨어 구성 비용과 가용 VRAM 64GB라는 수치는 기술적 사양과 시장 가격을 통해 어느 정도 추론이 가능하나, 구체적인 구매 시점과 실제 지출 비용은 개인의 경험 영역이므로 공식적으로 확인된 사실이라기보다 주관적 기록에 가깝습니다. 특히 Gemini 3.1 대체 가능성을 언급하신 부분은 개인적인 운용 계획일 뿐, 실제 성능 대체 여부는 추가적인 검증이 필요한 영역입니다.

반면, 추론 속도가 기존 대비 50Tok/s 빠르다는 주장은 구체적인 수치를 제시하고 있으나, 이를 뒷받침할 객관적인 벤치마크 자료가 함께 제시되지 않아 현재로서는 확인 필요 상태입니다. 로컬 LLM 환경에서 하드웨어 제약과 성능 사이의 괴리를 느끼는 사용자의 시행착오가 드러나는 대목이지만, 단순한 경험적 기록을 넘어선 기술적 지표로 받아들이기에는 근거가 부족합니다. 결국 이 기록은 고성능 하드웨어 투입 후에도 모델의 요구 사양과 실제 가용 자원 사이에서 발생하는 괴리를 보여주는 개인적 운용 사례로 읽힙니다.

실험 맥락운용 관찰재현 포인트

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    테스트가 아쉽다. 지난 6개월의 경험에서 볼 때 현재 로컬 LLM서빙에 가장 최적화+진심인 건 Lmstudio다. 올라마는 가면 갈수록 코어인 LLama.cpp의 업데이트조차도 적용 + 활용 못해서 헤메고 있는 것으로 보인다. vlllm 과 sglang 은 개인유저용이 아니며, litellm은 해킹당한지 얼마 안되었다.
    원문 보기
  2. 2
    Lmstudio 가 Dgx spark 에 없어서 불가피한 결정이었겠지만, 윈도우 기반으로 Lmstudio 로 다시 테스트하면 다른 결과가 나왔을 것이다.
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

로컬 LLM 서빙 도구의 최적화 수준에 대한 Serio님의 의견 중, vLLM과 sglang이 개인 사용자보다는 기업형 인프라에 가깝다는 점과 llama.cpp의 업데이트 반영 속도 차이는 기술적 정황상 설득력이 있습니다. 다만, LM Studio가 현시점에서 가장 최적화된 도구라는 주장이나 LiteLLM의 보안 사고 관련 언급은 공식 문서나 릴리스 노트만으로는 완전히 검증되지 않은 개인의 경험적 판단에 가깝습니다. 따라서 해당 부분은 실제 운용 환경에 따른 체감 성능의 차이로 이해하며 추가적인 확인이 필요합니다.

이번 논의의 핵심은 테스트 환경인 DGX Spark의 제약으로 인해 LM Studio를 활용하지 못한 점이 결과에 영향을 주었을 가능성입니다. 윈도우 기반 환경에서 재테스트 시 다른 결과가 나왔을 것이라는 추측은 하드웨어와 소프트웨어의 상호작용을 고려한 가설이지만, 이는 재현 가능성이 확인되지 않은 주관적 견해입니다. 결국 특정 도구의 우위보다는 사용자의 하드웨어 환경과 모델의 제약이 성능 측정에 결정적인 변수로 작용했음을 보여주는 기록입니다.

실험 맥락운용 관찰재현 포인트

THREAD ESSAYX THREAD ARCHIVE

업무에 사용할 최소한의 라인을 Gemini 3 pro라 생각함.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    업무에 사용할 최소한의 라인을 Gemini 3 pro라 생각함. 아직 3 Flash의 한 80~90% 수준임.

    물론 작년 말의 Gpt-oss-120B의 수준을 Moe 모델로 35B로 뛰어넘는다는게 놀랍긴 한데 우리가 업무에 핵심으로 쓰는 모델들은 이보다 더 월등히 강력하니

    로컬에 크게 관심두지 마시고 구독하세요. https://t.co/QZBVgOrYDA https://t.co/eUTFAxkkaH

    원문 보기
  2. 2

    내가 Gemini cli + 2.0 Pro(flash)로 바이브코딩을 시작한게 작년 5월쯤이었는데. 1년만에 세상은 정말 많이 바뀌는구나.

    격세지감을 체감하는 요즘.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 업무 활용의 최소 기준선을 Gemini 3 Pro로 설정하며, 로컬 모델보다 구독형 모델의 효율성을 강조하셨습니다. 다만 Gemini 3 Pro가 3 Flash의 80~90% 수준이라는 주장이나, 특정 MoE 모델이 과거 Gpt-oss-120B의 성능을 상회한다는 구체적인 수치는 공식 문서에서 직접 확인되지 않는 개인적 체감 영역입니다. 따라서 이 부분은 기술적 사실보다는 사용자의 주관적 경험 기록으로 보는 것이 타당하며, 정밀한 검증을 위한 추가 확인이 필요합니다.

반면 Gemini CLI와 2.0 Pro(Flash)를 활용한 코딩 경험과 그로 인한 격세지감은 실제 운용 과정에서 나타나는 전형적인 기술적 체감 사례입니다. 하드웨어 제약이 큰 로컬 LLM의 한계를 지적하며 상용 모델 구독을 권장한 점은 실무적 관점에서의 합리적인 판단으로 보입니다. 결국 이 기록은 모델의 절대적 성능 지표보다는 실제 업무 환경에서의 재현 가능성과 효율성에 무게를 둔 실무자의 시행착오 기록이라 할 수 있습니다.

실험 맥락운용 관찰재현 포인트