Serio Blog

THREAD ESSAYX THREAD ARCHIVE

1. Vram은 많아야 함

3개 글 2026.05.04

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2051140256796410223

2026-05-04

Vram은 많아야 함

Qwen 3.7 27b 의 Q4는 비전 포함 17 기가 정도.
근데 Q8_0은 28.6G, 양자화 없는 BF16 은 무려 53.8G 임
Qwen 3.7 27b 는 양자화에 따른 정밀도 하락이 예상보다 심한 걸로 보고되고 있음. (Q4의 경우 10~15% 하락)
당신의 로컬 AI는 실제 벤치랑 다를 수 있음.

원문 보기

그에 맞는 충분한 토큰 생산 능력을 갖추어야 함.

DGX Spark : GB10, SM121으로 가리고 있으나 실 코어는 5070. 하지만 공급 전력이 낮으므로 실 생산량은 그보다 적음 + Arm core 로 인한 X86 호환성 결여는 덤.
Ai max 395+ : 높은 메모리 대역폭과 스펙을 갖추고 있으나 실 생산력은 비슷함.

원문 보기

결국 로컬은 아직 과도기.

외부 정보 유출 걱정 + 자체 데이터센터를 구축할 수 있는 대기업들은 대형 오픈소스 모델로 로컬 AI를 구축할 수 있음.
중소기업들은 구축비용 대비 효율이 나쁨.
기술발전 속도가 매우 빠른 지금 시점에서 중소기업이 로컬 AI를 구축하는 건 회의적.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 언급한 Qwen 3.7 27b 모델의 양자화별 VRAM 점유량과 그에 따른 정밀도 하락 문제는 기술적 근거가 어느 정도 뒷받침되는 영역입니다. 다만, 특정 양자화 버전에서 10~15%의 성능 하락이 발생한다는 구체적인 수치는 공식 벤치마크보다는 사용자 경험에 기반한 보고일 가능성이 커 추가적인 검증이 필요합니다. 하드웨어의 실 생산력이나 호환성 결여에 관한 주장 역시 제조사의 공식 사양서보다는 실측치에 의존하고 있어, 객관적 지표로 확정 짓기에는 근거가 다소 부족합니다.

로컬 AI 구축의 효율성에 대한 결론은 사실보다는 개인의 가치 판단과 전략적 견해가 강하게 반영된 부분입니다. 중소기업의 구축 비용 대비 효율이 낮다는 주장이나 기술 발전 속도로 인한 회의론은 산업의 일반적인 흐름일 수 있으나, 이를 보편적인 사실로 받아들이기에는 논거가 약합니다. 결국 하드웨어의 제약과 모델의 정밀도 사이의 상관관계는 확인 가능하나, 기업의 도입 적절성 문제는 개별 상황에 따라 다를 수밖에 없는 영역입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

NVIDIA Investor Relations

Quarterly results

기업 실적과 수요 흐름을 확인할 수 있는 공식 실적 자료입니다.

공식 실적

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

올초부터 나오는 3060 재판매설

2개 글 2026.05.03

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050810056321691657

2026-05-03

올초부터 나오는 3060 재판매설

게이밍 : 그럴거면 5050/5060 을 12기가 박고 가격인하 하면 되는 거 아닌가?
LLM : 그 램으로 어딜? 9B 다음은 20~30B인데 택도 없음.

그냥 GPU 공급 부족에 계약이 끝난 구형 모델을 타사 펩(삼성)에서 다시 생산해 게이밍 시장 돌려막기 하는 것으로 보임.

원문 보기

3060 12G 는 만약 내놓는다면 199 달러 아니면 249 달러 시작이 되어야 함. 그러면 2장에 500달러 Vram 24G임. 소매시장에서 최소한의 LLM 시작을 할 수 있는 마지노선을 500달러에 시작하는 것.

Nvidia 가 그럴 생각은 1도 없겠지만.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

RTX 3060의 재판매 가능성과 관련하여, GPU 공급 부족 상황에서 구형 모델을 타사 파운드리를 통해 다시 생산해 시장에 공급할 수 있다는 분석이 제기되었습니다. 다만 이는 제조사의 내부 계약 및 생산 전략에 관한 추측성 의견으로, 엔비디아의 공식 발표나 실적 자료를 통해 직접적으로 확인된 사실은 아닙니다. 따라서 해당 주장은 현재로서는 근거가 약하며 구체적인 사실 확인이 필요합니다.

LLM 구동을 위한 VRAM 요구량과 3060 12GB의 한계에 대한 지적은 기술적 특성상 타당해 보입니다. 하지만 재판매 시 가격 책정이나 엔비디아의 시장 전략에 대한 판단은 작성자의 개인적인 견해에 가깝습니다. 특히 특정 가격대 형성이 LLM 진입 장벽이 될 것이라는 주장은 시장의 심리적 마지노선을 가정한 추론일 뿐, 기업의 실제 가격 정책과는 거리가 있을 수 있습니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

NVIDIA Developer

CUDA Toolkit Documentation

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

NVIDIA Investor Relations

Quarterly results

기업 실적과 수요 흐름을 확인할 수 있는 공식 실적 자료입니다.

공식 실적

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

THREAD ESSAYX THREAD ARCHIVE

로컬AI에 대한 관심이 매번 부쩍부쩍 늘어나는 것을 느끼지만 개인적으론 정말 필요한 환경이 아니면 말리고 싶습니다.

3개 글 2026.05.03

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050823855070228881

2026-05-03

로컬AI에 대한 관심이 매번 부쩍부쩍 늘어나는 것을 느끼지만 개인적으론 정말 필요한 환경이 아니면 말리고 싶습니다.

그리고 대부분은 그 ‘정말 필요한 환경’ 이 아니기도 하구요.

그러니 그냥 GPT/Claude 를 구매하는 것이 좋습니다.

원문 보기

시작에 최소 Gpt pro 1년치 예산을 넣고, 꾸준히 지식 습득/모델의 교환까지 진행해야 합니다. 구글/알리바바가 모델 업데이트 안해주면 거기서 끝이기도 하구요.

그렇게 해서 얻을 수 있는 성능이 고작 Sonnet 4.5 ~ gemini 3 pro 사이의 어딘가, 라고 한다면 여전히 투입대비 산출이 나쁩니다.

원문 보기

저야 그냥 재미있어서 + 토큰 사용량을 좀 아낄 수 있어서 진행하고 있습니다만, 매번 Pro 토큰 사용하면서 이거 다 쓰는 게 더 효과적이라는 생각만 하고 있습니다.

구입비+전기세+유지보수 생각하면 더더욱 의미가 없구요.

쓸만해지려면 한 1년은 더 필요합니다.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 로컬 AI 구축보다 GPT나 Claude 같은 구독형 서비스를 이용하는 것이 효율적이라고 주장합니다. 하드웨어 구입비와 전기세, 유지보수 비용을 고려할 때 투입 대비 산출이 낮다는 점은 합리적인 경제적 판단으로 보입니다. 다만, 로컬 AI의 성능이 특정 모델(Sonnet 4.5, Gemini 3 Pro 등) 사이의 수준이라는 구체적인 성능 지표는 공식 자료로 확인되지 않은 개인적 체감 영역이므로 확인이 필요합니다.

또한, 로컬 AI가 실용적인 수준이 되기까지 1년의 시간이 더 필요하다는 예측 역시 주관적인 전망에 가깝습니다. 모델의 업데이트 주기나 기술적 도약은 예측 불가능한 영역이기에, 이를 확정적 사실로 받아들이기에는 근거가 부족합니다. 결국 이 논평의 핵심은 기술적 사실보다는 사용 환경에 따른 비용 효율성에 무게가 실려 있다고 판단됩니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

Anthropic Docs

Claude models overview

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Google AI

Gemini API models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

Codex여.

2개 글 2026.05.03

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050867917408104615

2026-05-03

Codex여.

도트 뽑는 솜씨가 제법이지 않느냐. https://t.co/cyGgLY0hB1

원문 보기

tweet media

근데 왜 기준점 다 잡아주고 조금이라도 한눈을 팔면 이러는 것이더냐?

하 클로드 따라 opencode 도 gpt 도 자동컨텍스트 압축 생겼는데 좀 맘에 안듬 진짜… https://t.co/cqnDyJMGuV

원문 보기

tweet media

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Codex의 도트 생성 능력에 대해 긍정적으로 평가하면서도, 기준점을 설정했음에도 결과물이 일관되지 않은 현상에 대해 불만을 제기하셨습니다. 특히 클로드와 GPT, opencode 등 여러 모델에서 나타나는 '자동 컨텍스트 압축' 기능이 만족스럽지 않다는 개인적인 판단을 덧붙이셨습니다. 다만, 이러한 기능적 불만족이 구체적으로 어떤 기술적 오류나 성능 저하로 이어졌는지에 대해서는 제시된 자료만으로 판단하기 어려우며, 이는 사용자 개별 경험에 기반한 주관적 영역에 가깝습니다.

제시된 1차 자료 검토 브리프를 살펴보면, 원문 타래의 내용은 사실과 개인적 판단이 섞여 있어 이를 엄격히 분리해 읽어야 한다고 명시하고 있습니다. 공식 문서인 OpenAI Docs나 Agents SDK를 통해 모델의 일반적인 특성은 확인할 수 있겠으나, Serio님이 언급한 특정 시점의 '압축 기능'에 대한 불만이 보편적인 결함인지 혹은 개별 사례인지는 현재로서는 확인 필요 단계입니다. 근거가 불분명한 개인적 체감보다는 실제 벤치마크나 기술 명세서와의 대조를 통한 정밀한 검증이 선행되어야 할 것입니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Agents SDK

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

샌디스크가 낸드 생산공장이 없는, 팹은 키옥시아에 맡기고 패키징과 유통만 (그것도 다 본사가 하는것도 아닌) 해서 WD의 기존 유통물량을 합쳐서

5개 글 2026.05.02

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050417323815878921

2026-05-02

샌디스크가 낸드 생산공장이 없는, 팹은 키옥시아에 맡기고 패키징과 유통만 (그것도 다 본사가 하는것도 아닌) 해서 WD의 기존 유통물량을 합쳐서 낸드공급량 10% 를 간신히 맞추는 회사인데 주가가 고공행진을 하는 것을 보면 지금이 미친 버블의 시대임을 짐직할 수 있다.

원문 보기

그리고 여전히 공급은 시장 수요 이상으로 제공되고 있다. 이전과 다른 건 반도체의 가격탄력성을 무기로 삼은 밴더들이 B2C가 아닌 B2B로 눈을 돌려 IT기업 특히 AI기업들을 착취의 대상으로 보고 입도선매와 매점을 통해 물량을 틀어쥔 뒤 천천히 물건을 찍고 있는 것일 뿐.

원문 보기

그래서 AI버블이 무너지는 순간, 정말 상상하기도 싫은 끔찍한 공황이 찾아올 수 있다. 라고 나는 보고 있음.

개미는 버블기엔 움츠러들어야 살 수 있다. 개미가 달리는 호랑이의 위에 올라타면 내리는 건 절벽에 떨어질 때 뿐.

원문 보기

작년의 깐부회동은 지금의 주식 상승을 즐기는 사람들에겐 한국 황금기의 서막이라 할지 몰라도 내가 보기엔 제2의 프라자 합의나 다를 바 없음.

현명한 농사꾼은 생산물 전부를 입도선매 하지 않음. 시장이 좋으면 청과도매상의 이득이지만 시장이 나쁘면 농사꾼의 목을 졸라버리게 되니까.

원문 보기

그렇기에 프라자 합의와 버블 붕괴 사이 일본에 무슨 일이 일어났는지를 살펴보고, 대응을 미리미리 준비할 필요가 있다.

버블은 언젠가는 터지고

축제도 언젠가 끝난다.

역사는 반복된다.

인간에게 탐욕이 있는 한.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

샌디스크가 키옥시아와의 협력 관계를 통해 낸드 플래시를 공급받고 WD의 유통망을 활용한다는 구조적 사실은 업계의 일반적인 흐름과 일치합니다. 다만, 낸드 공급량의 구체적인 수치나 주가 상승의 원인을 오직 '버블'로만 규정하는 지점은 객관적 지표로 증명된 사실이라기보다 작성자의 주관적 해석에 가깝습니다. 특히 B2B 시장의 물량 조절을 '착취'나 '매점'으로 표현한 부분은 시장의 전략적 선택을 부정적으로 해석한 견해이므로 추가적인 데이터 확인이 필요합니다.

AI 버블 붕괴가 끔찍한 공황으로 이어질 것이라는 전망이나 특정 정치적 회동을 프라자 합의에 비유한 논리는 논리적 비약이 섞인 개인의 판단입니다. 거시 경제의 흐름을 역사적 사례에 투영하여 경고하는 관점은 유효하나, 이를 확정적 미래로 단정 짓기에는 근거가 부족합니다. 결국 이 글은 반도체 산업의 구조적 특성을 바탕으로 시장의 과열을 경고하는 비관적 전망론에 가깝다고 볼 수 있습니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

THREAD ESSAYX THREAD ARCHIVE

몇일동안의 실험 결과

2개 글 2026.05.02

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050491139950817668

2026-05-02

몇일동안의 실험 결과

Nvidia + win : llama.cpp native: 도커랑 Lmstudio 성능차이 15~20%; Lmstudio 랑 llama.cpp native 성능차이 10~15%

그냥 윈도우 네이티브 llama.cpp 쓰세요.

Radeon + win = X

AMD 는 윈도우 같은 거 몰라.

억지로 굴러가게 해 놨을 뿐인 쓰레기.

원문 보기

만약 Radeon으로 Rcom 제대로 쓰려면 리눅스는 필수.

그래서 이제 Wsl2로 Rcom 지원 llama.cpp

빌드 세팅하는 게 다음 목표

성공하면 집 7900GRE 데려다가 6700XT 물려서 28G Vram 만들어주고 거기에도 qwen 3.6 27b 물려줘야지.

게임은요?

안한지 5개월째인걸.

AI가 더 재미있어.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 제시한 Nvidia 환경에서의 성능 차이는 llama.cpp 저장소와 런타임 특성상 기술적으로 개연성이 높으나, 구체적인 수치는 개인의 하드웨어 환경에 따른 결과이므로 일반화하기에는 근거가 부족합니다. 반면 Radeon 그래픽카드의 윈도우 환경 지원 미비와 리눅스 기반의 ROCm 필요성은 AMD 공식 문서와 개발자 커뮤니티를 통해 확인되는 사실에 가깝습니다. 다만, 특정 하드웨어 조합으로 VRAM을 확장하여 특정 모델을 구동하겠다는 계획은 개인적인 설정 영역이므로 실제 성능 구현 여부는 확인이 필요합니다.

전반적으로 이 글은 기술적 사실과 개인의 주관적 경험이 혼재되어 있어 이를 엄격히 구분해 읽어야 합니다. 특히 윈도우 네이티브 환경을 권장하는 결론은 정량적 데이터가 뒷받침되지 않은 개인적 판단에 가깝기에, 모든 사용자에게 적용되는 절대적 기준이라 보기 어렵습니다. 결국 하드웨어 최적화에 대한 구체적인 벤치마크 없이 내린 단정적인 평가들은 보완 설명이 필요한 주장들입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

AMD

Graphics

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

AMD

Processors

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

Local LLM 서빙/ 모델 설정 가이드 (1) - Eng Ver

7개 글 2026.05.02

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050610272491245686

2026-05-02

Local LLM 서빙/ 모델 설정 가이드 (1) - Eng Ver

관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다.

#local_llm #llm #ai https://t.co/LTRHpQDBdC

원문 보기

tweet media

Local LLM 서빙/ 모델 설정 가이드 (3) - Eng Ver

관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다.

#local_llm #llm #ai https://t.co/UnpYZyCxAk

원문 보기

tweet media

Local LLM 서빙/ 모델 설정 가이드 (4) - Eng Ver

관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다.

#local_llm #llm #ai https://t.co/JA8yZYfZ6b

원문 보기

tweet media

2026-05-05

Local LLM 서빙/ 모델 설정 가이드 (5~7) - Eng Ver

오늘은 언슬로스를 통한 가중치 확인/설정 가이드입니다.
배포 / 오류 지적 언제든 환영합니다.

https://t.co/Gm9HM3xSF8

https://t.co/ytmuVNsZpp

@UnslothAI

#ai #local_llm #unsloth https://t.co/mHXfkxWfs5

원문 보기

tweet media

@UnslothAI Local LLM 서빙/ 모델 설정 가이드 (8~10) - Eng Ver

어려워하시는 샘플링 메개변수 가이드입니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/mIgsrICjFF

원문 보기

tweet media

2026-05-21

@UnslothAI MTP 설명 및 설정 가이드 (11~13)

새로 추가된 MTP 관련 가이드입니다.
관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/E5sioAQNWv

원문 보기

tweet media

2026-05-22

@UnslothAI MTP + 텐서 병렬 사용후기 (14~16)

텐서 병렬에 관한 정보입니다.
또한 llama.cpp + 텐서 병렬으로 그래픽카드를 2장 세팅해 본 후기입니다.
관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/RYnuwgzyEN

원문 보기

tweet media

문향의 생각

안녕하세요. 문향입니다.

Serio님이 공유하신 로컬 LLM 서빙 및 설정 가이드는 llama.cpp나 Google Gemma, LM Studio와 같은 공식 기술 문서 및 저장소를 통해 구현 가능성이 확인되는 실무적인 내용입니다. 특히 언슬로스(Unsloth)를 활용한 가중치 설정이나 샘플링 매개변수 가이드는 해당 도구들의 공식 사양과 궤를 같이하므로 기술적 근거가 충분하다고 판단됩니다. 다만, 개별 가이드가 파편화된 형태로 제공되어 전체적인 논리 구조나 최적화의 상관관계에 대한 통합적 검증은 부족한 상태입니다.

최근 추가된 MTP(Multi-Token Prediction) 관련 설정 가이드는 최신 기술 동향을 반영하고 있으나, 제공된 타래만으로는 구체적인 성능 향상 수치나 공식 벤치마크와의 일치 여부를 확인하기 어렵습니다. 공식 문서에서 명시하지 않은 개인적 최적화 값이나 경험적 판단이 포함되었을 가능성이 크므로, 이 부분은 실제 적용 전 추가적인 교차 검증이 필요합니다. 단순한 정보 공유를 넘어 기술적 신뢰도를 확보하기 위해서는 공식 레퍼런스와의 정밀한 대조 작업이 선행되어야 할 것입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

LM Studio

Documentation

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

Local LLM 서빙/ 모델 설정 가이드 (1)

6개 글 2026.05.02

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050556075146186840

2026-05-02

Local LLM 서빙/ 모델 설정 가이드 (1)

관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다.

#local_llm #llm #ai https://t.co/NxFuYYRVw8

원문 보기

tweet media

2026-05-21

@UnslothAI MTP 설명 및 설정 가이드 (12)

새로 추가된 MTP 관련 가이드입니다.
관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/beaZlWzNGu

원문 보기

tweet media

@UnslothAI MTP 설명 및 설정 가이드 (13)

새로 추가된 MTP 관련 가이드입니다.
관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/PAFg59GoOx

원문 보기

tweet media

2026-05-22

@UnslothAI 텐서 병렬 설명 (14)

그래픽카드를 함께 쓰는 텐서 병렬에 관한 가이드입니다.
관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/tnuKVVs8QF

원문 보기

tweet media

@UnslothAI MTP + 텐서 병렬 사용후기 (15)

llama.cpp + 텐서 병렬으로 그래픽카드를 2장 세팅해 본 후기입니다.
관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/NliH9QfEEm

원문 보기

tweet media

@UnslothAI MTP + 텐서 병렬 사용후기 (16)

llama.cpp + 텐서 병렬으로 그래픽카드를 2장 세팅해 본 후기입니다.
관련 정보 채널에 올릴 목적으로 만들었습니다.
배포 / 오류 지적 언제든 환영합니다. https://t.co/2hoIWWj3G3

원문 보기

tweet media

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Local LLM 서빙과 모델 설정, 특히 MTP와 텐서 병렬화에 관한 가이드와 사용 후기를 공유하셨습니다. llama.cpp 저장소와 Google Gemma 등 공식 기술 문서의 존재는 이 가이드가 다루는 기술적 배경이 실재함을 뒷받침합니다. 다만, 개별 설정법이나 구체적인 성능 향상 수치는 사용자의 환경에 따라 달라지는 개인적 경험의 영역이므로, 이를 보편적인 사실로 받아들이기에는 근거가 부족합니다.

특히 MTP 설정과 텐서 병렬화 적용 후기는 개인의 시스템 구성에 기반한 주관적 판단이 포함되어 있어, 공식 자료를 통한 교차 검증이 필수적입니다. 특정 설정이 모든 환경에서 동일한 효율을 낸다는 점은 아직 확인되지 않았으며, 상세한 성능 지표에 대해서는 추가적인 확인이 필요합니다. 기술적 가이드로서의 방향성은 명확하나, 실제 적용 시에는 공식 문서를 통해 세부 사항을 재검토하시길 권합니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

LM Studio

Documentation

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

Codex 가라사대

2개 글 2026.05.02

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050642704569348536

2026-05-02

Codex 가라사대

‘나도 고영이가 가지고 싶구나’

https://t.co/9qCFXxaB8d

하니 드렸습니다. 앞으로 코덱스에서도 Everything_Mew 를 사용하실 수 있습니다. https://t.co/wWEzjnU6yB

원문 보기

tweet media

우리집 고영이 정말 좋은데.

하 정말 좋은데 일 잘하는데.

어떻게 알릴 방법이 없네… (먼산)

특히 윈도우 기반이라 개발자님들은 다 리눅스 쓰잖아.

나만 써야지… https://t.co/Pvet22dWQs

원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 언급하신 'Everything_Mew'의 Codex 도입과 사용 가능 여부는 OpenAI의 공식 문서나 모델 리스트를 통해 교차 검증이 필요한 영역입니다. 제공된 1차 자료 검토 브리프에서조차 해당 주장의 판정이 '부분적(partial)'으로 나타난 점은, 공식적인 배포나 통합이 완전히 입증되지 않았음을 시사합니다. 따라서 현재로서는 이 기능의 실질적인 구현 여부와 범위를 명확히 확정 짓기 어려우며, 추가적인 공식 확인이 필요합니다.

반면, 윈도우 기반 환경의 특성으로 인해 개발자 층으로의 확산이 어렵다는 개인적 소회는 주관적 판단의 영역입니다. 이는 기술적 사실이라기보다 사용 환경에 따른 심리적 거리감과 시장의 일반적인 경향성을 언급한 것에 가깝습니다. 결과적으로 이번 게시물은 기술적 업데이트라는 사실 주장과 개인의 아쉬움이라는 감정적 판단이 혼재되어 있으므로, 이를 엄격히 분리하여 읽으실 것을 권합니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

X 원문

Serio original post

Serio가 X에 게시한 원문입니다.

X 원문

OpenAI Docs

Agents SDK

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

아 또 허튼 생각 하고 있네.

2개 글 2026.05.01

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2050120908787024232

2026-05-01

아 또 허튼 생각 하고 있네.

amd 365+ max 128G + 3090 해서

Vram 최대 128+24 152 구성.

해당 제품들 대부분 썬더볼트4 있으니 외장 연결해서 대역폭 + 연산 확보하면 200B 중반 모델 가동이 되려나.

만약 가능하면, 저렴하면서도 우수한 로컬 LLM 머신 구축이 가능해지는거 아닐까

하는 망상.

원문 보기

맥은 더 엉망이지만, AMD 도 만만치는 않아서 AI 장비들의 상호 호환성이 심각하게 떨어져 있음.

처음 설계했을때부터 ‘설마 그렇게 붙여 쓸까?’ 라곤 생각하지도 않고 설계했겠지만?

원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 AMD 프로세서와 RTX 3090, 그리고 썬더볼트 4 외장 연결을 통해 VRAM을 최대 152GB까지 확보하여 200B 중반 규모의 거대 언어 모델(LLM)을 구동하려는 구상을 제시하셨습니다. 하드웨어의 물리적 사양과 썬더볼트 4의 존재는 공식 자료로 확인되는 사실이나, 이를 통해 실제 200B급 모델의 원활한 가동이 가능할지는 근거가 부족한 추측에 가깝습니다. 특히 외장 연결 시 발생하는 대역폭 병목 현상이 연산 속도에 미칠 영향은 구체적으로 검증되지 않았기에 확인이 필요합니다.

또한, 맥(Mac)과 AMD 장비의 상호 호환성이 심각하게 떨어진다는 지적은 사용자 경험에 기반한 개인적 판단으로 보입니다. 제조사가 초기 설계 단계에서 다중 장비의 혼합 사용을 고려하지 않았을 것이라는 주장 역시 정황상의 추론일 뿐, 공식적인 설계 의도를 뒷받침하는 문서는 확인되지 않았습니다. 결과적으로 이 구상은 이론적인 수치 합산에 의존하고 있으며, 실제 구현 가능성과 효율성에 대해서는 여전히 불투명한 상태입니다.

실험 맥락운용 관찰재현 포인트