Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    바로 모두의 창업 2기 공지하고, ’ 사전 창업 교육을 받으러 오면 가산점을 드려요’ 라며 안내 오는데 나한테 지금 가장 필요한 건 교육이 아니라 돈. 가서 시시껄렁한 그것도 수준 떨어지는 교육장사꾼들하고 한담하며 놀 시간이 없음. 당신들보다 AI가 똑똑해.
    원문 보기
  2. 2
    강연자들이 하나같이 커서급 자체 IDE를 만들고, 실제 로컬 AI서빙 서버를 몇백대 구축하고 병렬 운영하며, 구독자 10만급의 AI Vtuber를 복수로 프로듀싱 하는 사람들이면 모르겠다. 하지만 그런 사람들이 교육 강연을 뛰고 있을 리 없으니까 창업 교육이란 시간 낭비일 뿐임.
    원문 보기
  3. 3

    당장 Ai 창업 지원 한다는 사람이 Openclaw를 구축해서 써 본 사람은 몇이나 될 것이며, 로컬 Ai 를 오케스트레이션해서 업무에 투입하는 사람은 몇이나 될 것인지? 그걸로 생산성 있는 결과물을 내놓는 사람은 과연 거기서 또 얼마나 될 것인지?

    목적전치 현상을 막는 방법은, 구조를 부수는 것이다.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 '모두의 창업 2기' 공지에서 제시한 사전 교육의 실효성을 비판하며, 실무 역량이 결여된 교육 중심의 지원 체계를 지적하셨습니다. 특히 Openclaw 구축이나 로컬 AI 오케스트레이션 같은 고도의 기술적 실무 능력이 실제 교육 현장에서 구현되고 있는지에 대한 의문을 제기하셨습니다. 다만, 강연자들의 실제 이력이나 역량 부족에 대한 구체적인 근거는 제시되지 않았으므로, 이 부분은 개별 확인이 필요한 주관적 판단 영역에 해당합니다.

반면, AI 기술의 급격한 발전 속도와 로컬 LLM 생태계의 실무적 복잡성은 기술 문서와 저장소를 통해 객관적으로 확인되는 사실입니다. 단순 교육보다 자본 투입과 실질적인 인프라 구축이 우선되어야 한다는 주장은 현재의 기술 격차를 고려할 때 타당한 논거를 갖추고 있습니다. 결국 목적과 수단이 뒤바뀐 '목적전치' 현상을 해결하기 위해서는 형식적인 교육 과정이 아닌, 실질적인 기술 구현 능력을 갖춘 구조적 변화가 시급해 보입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

THREAD ESSAYX THREAD ARCHIVE

모두의 창업 둘 다 떨어졌네. 흠.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    모두의 창업 둘 다 떨어졌네. 흠. 슬슬 수도권 이전을 고려해봐야 할 듯.

    기존 창업 컨설팅 기관들이 메인이다 보니 그들의 퀄리티 생각하면 제대로 봐 줄 리 없다 + 사전 인맥 커넥션 만들어 놔야 하는 걸 알고 있었는데 제대로 준비해서 넣은 것도 떨어지는걸 보면 지방에 있는게 독인듯.

    원문 보기
  2. 2

    결국 올해도 계속 자비 갈아넣고 가는 것인가.

    외주에나 매달려야할듯.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 '모두의 창업' 지원 결과가 좋지 않았다는 사실과 이에 따라 수도권 이전을 고민하며 외주 작업에 집중하겠다는 개인적인 계획을 밝히셨습니다. 다만, 탈락의 원인을 기존 컨설팅 기관의 낮은 퀄리티나 사전 인맥 커넥션의 부재, 그리고 지방 거주라는 환경적 요인으로 돌린 부분은 작성자의 주관적 해석에 가깝습니다. 이러한 판단을 뒷받침할 객관적인 심사 지표나 구체적인 근거가 제시되지 않았기에, 해당 주장은 논리적 연결 고리가 다소 약하다고 보입니다.

특히 특정 기관들의 전문성 부족이나 인맥 중심의 선정 과정에 대한 주장은 공식적인 자료로 검증되지 않은 영역이므로 확인이 필요합니다. 단순히 결과에 대한 아쉬움을 넘어 시스템의 구조적 문제를 지적하시려면, 구체적으로 어떤 기준이 불합리했는지에 대한 실질적인 데이터가 보완되어야 할 것입니다. 현재로서는 개인의 심경과 상황에 기반한 추론이 주를 이루고 있어, 이를 일반적인 사실로 받아들이기에는 무리가 있습니다.

원문 해석확인 필요

THREAD ESSAYX THREAD ARCHIVE

못참고 결국 Gemma4 MTP 찍어먹음.

3개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    못참고 결국 Gemma4 MTP 찍어먹음.

    BC-250 12B 20tok/s > 35tok/s 3090 26B 112 tok/s > 147Tok/s 😯

    31B 찍어 먹으러 다녀옵니다. https://t.co/qNxF8j94i5

    원문 보기
  2. 2
    Gemma4 31B 는 역시 256K 풀컨텍스트 쓰기엔 32기가도 조금 버겁네. https://t.co/taiiAuzTwV
    원문 보기
  3. 3

    단발성 토큰 수치라 뒤로 가면 더 떨어집니다.

    그래도 기존에 20 Tok/s 안나왔는데 이정도면 ‘쓸만은 해졌다’ 수준인가 싶네요. https://t.co/Du3ADm4gnP

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 공유한 Gemma4 MTP의 추론 속도 향상 수치는 하드웨어별 측정값으로 제시되었으나, 이는 개인의 환경에서 도출된 결과일 뿐 공식 문서나 저장소를 통해 객관적으로 검증된 사실은 아닙니다. 특히 3090 환경에서의 토큰 생성 속도 증가나 31B 모델의 성능 체감에 대한 언급은 주관적 경험에 의존하고 있어, 일반적인 성능 지표로 받아들이기에는 근거가 부족합니다.

반면 31B 모델의 256K 풀 컨텍스트 사용 시 32기가 메모리가 부족하다는 주장은 모델의 파라미터 크기와 컨텍스트 윈도우의 메모리 점유 특성을 고려할 때 기술적으로 타당해 보입니다. 다만, '쓸만해졌다'는 식의 정성적인 판단은 기준이 모호하므로 실제 활용 가능 여부는 추가적인 벤치마크 데이터 확인이 필요합니다. 전반적으로 이번 내용은 공식 지표보다는 개인의 사용 후기에 가까운 성격의 글입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    요즘 깃허브, 코덱스, 클로드의 Api 비용을 보면 왜 프로그래머 분들이 더더욱 Local LLM 에 관심을 가지시는지 알 거 같다.

    다만, 대부분의 로컬 머신과 모델들이 SOTA 수준의 에이전틱 작업을 할 수는 없으니 원래 가지고 계신 지식과 로컬 AI의 보조를 결합한 무언가 있으면 좋겠다는 생각을 한다.

    원문 보기
  2. 2

    이미 커서에다가 연결해 쓰시는 분들은 보았으니, 저녁에 한번 실험해 봐야겠다. 커서에 Quopus 3.6 27b를 연결해 돌려 보고 의미 있는 활용이 가능한지 살펴봐야겠다.

    가능하면 아마 antigravity가 작업 환경에서 제거될 거 같다.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

최근 클로드와 깃허브 코덱스 등 주요 AI 서비스의 API 비용 상승이 개발자들을 로컬 LLM(Local LLM)으로 유도하고 있다는 Serio님의 분석은 업계의 일반적인 흐름과 궤를 같이합니다. 다만, 로컬 모델이 SOTA(최신 기술 수준)급의 에이전틱 작업을 수행하기 어렵다는 점과 이를 개발자의 기존 지식으로 보완해야 한다는 의견은 개인의 경험적 판단에 가깝습니다. 특히 특정 모델인 'Quopus 3.6 27b'를 커서(Cursor)에 연결해 활용하겠다는 계획이나, 이를 통해 'antigravity'를 작업 환경에서 제거할 수 있다는 주장은 공식 자료로 검증되지 않은 개인적 가설이므로 추가적인 확인이 필요합니다.

기술적으로 로컬 LLM의 구동 가능성은 llama.cpp나 LM Studio 같은 도구를 통해 확인되지만, 특정 모델의 실질적인 효용성은 사용자의 환경과 숙련도에 따라 크게 달라집니다. API 비용이라는 경제적 요인이 로컬 전환의 트리거가 된 것은 사실이나, 그것이 곧바로 상용 모델 수준의 생산성 대체로 이어질지는 미지수입니다. 결국 로컬 AI의 실효성은 단순한 비용 절감을 넘어, 실제 작업 공정에서 어느 정도의 보조 능력을 보여주느냐에 달려 있다고 생각합니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

LM Studio

Documentation

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Anthropic Docs

Claude models overview

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

lamma.cpp Gemma4 mtp 지원 병합이 된 모양인데.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    lamma.cpp Gemma4 mtp 지원 병합이 된 모양인데. 드디어 왔나 싶기도 하면서도 과연 잘 될까 싶기도 함. 이번건 선발대 안하고 다른 분들의 결과만 좀 지켜볼 생각.

    https://t.co/BwUX1qd6CE

    많이도 안바라고 한 20% 정도만 빨라졌으면 좋겠네. 그럼 3090에서 Gemma4 31b 30 T/s 가 넘을테니.

    원문 보기
  2. 2

    오타났네 llama! llama! 알파카?

    https://t.co/WvLDGoq2hV

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 llama.cpp 저장소에 Gemma 4의 MTP(Multi-Token Prediction) 지원 기능이 병합되었음을 언급하며, 이에 따른 추론 속도 향상을 기대하고 있습니다. llama.cpp의 공식 저장소 이력을 통해 기술적 병합 여부는 확인이 가능하나, 특정 하드웨어인 RTX 3090에서 Gemma 4 31B 모델의 속도가 30 T/s를 상회할 것이라는 구체적인 수치는 현재로서는 확인이 필요한 영역입니다.

특히 성능이 20% 정도 향상될 것이라는 예측은 개인적인 기대치에 가까우며, 이를 뒷받침할 객관적인 벤치마크 자료는 아직 제시되지 않았습니다. 기술적 구현이 완료되었다 하더라도 실제 체감 속도는 최적화 상태와 환경에 따라 달라지므로, 타 사용자의 결과물을 지켜보겠다는 신중한 접근이 타당해 보입니다. 따라서 해당 성능 향상 폭에 대해서는 추가적인 실측 데이터가 확보될 때까지 유보적인 관점에서 바라볼 필요가 있습니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    찾아보다가 BC-250을 찐 PS5로 만들어 주는 깃허브 저장소가 있어서 Codex + Superpower 에 Xhigh 로 던져서 적용까지 마치라 해놓고

    밥먹으러 다녀옵니다.

    뭐먹징.

    원문 보기
  2. 2

    Codex : ‘저장소는 페도라/바자이트 기준인데, 우리는 우분투잖아요? 커널 빌드 새로할께요~ 이꾸요.’

    10분 후

    ‘원샷 프롬프트 만들어 왔어요. Sudo 로 스크립트 실행해 주세요.’

    3분 후

    ‘잘 됐네요. 코어 속도 1500Mhz 로 했으니 여기서부터 시작해 봅시다. 검증할께요.’

    내 소감 https://t.co/WyWuME0wnd

    원문 보기
  3. 3

    여튼 제 BC-250 이 PS5가 되었단 소식인데요. 심지어 원본 PS2 보다 CU가 2개 더 많은건데요.

    벤치 돌리고 올께요.

    원문 보기
  4. 4
    불행 중 다행인가. 다 불량은 아닌 모양. CU 8개는 살릴 수 있을듯. https://t.co/jNRiNbHAh4
    원문 보기
  5. 5

    코어 8개는 살려 놨는데, llama.cpp와 vulkan 의 부조화가 서빙을 방해하기 시작한다. 모델이 갑자기 정형행동을 하는 앵무새가 되어버림.

    Cuda Cuda 어렵다 독점이다 말 많아도 경쟁자들이 더 엉망이기 때문에 이기는 법이지.

    원문 보기
  6. 6

    작업 결과 : 36/40Cu

    Codex 로 자동스크립트 만들어서 불량 코어 체크.

    2CU가 1 WGP 에 들어가 있는 구조인데, 아예 응답이 없는 WGP 가 1개, 응답은 있으나 정상 작동을 안하는 WGP를 1개 찾아내고 바이패스 처리.

    현재 Gemma4 12b/Qwen 9B 장기 부하 테스트중. 15/30 사이클 진행 중 이상 없음.

    원문 보기
  7. 7

    2000mhz / 1000Mv 의 기본 세팅에선 발열 제어가 안되므로 1500mhz / 900Mv 로 커널 전압 설정 변경. CU가 16개 추가 작동하기 때문에 한 5~10Tok/s 의 성능 향상을 기대 중.

    여기에 Gemma4 12b mtp 적용시키면?

    50Tok/s 만 나오면 좋겠네.

    원문 보기
  8. 8

    성공 야호-!

    18.9 Tok/s > 20.1 Tok/s > 23.87 Tok/s

    여기에 새벽에 올라온 Mtp 붙여서 30~35 Tok/s 붙이면 실사용권! https://t.co/AihX3oLe2o

    원문 보기
  9. 9

    성공 경험 묶어서 자동화 스크립트로 만드는 중.

    역시 /goal 이 이럴때 좋네.

    • CU 활성화
    • 정상 CU 체크 프로세스
    • 커널 작동속도/전압 컨트롤
    • 안정화 검증
    원문 보기
  10. 10

    Gemma4 MTP 대성공 야호-!

    BC-250 / Gemma4 12B Q6 KVQ8 MTP 디코딩 35.13Tok/s!

    이정도면 에이전트나 챗봇에 써도 아무 문제 없는 속도네요. https://t.co/1pXRhlrUl1

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 BC-250 하드웨어의 커널 설정을 변경하여 성능을 끌어올리고, Gemma4 및 Qwen 모델의 추론 속도를 측정하며 실사용 가능 수준의 토큰 생성 속도를 확인했다고 주장합니다. 특히 불량 코어를 체크하여 바이패스 처리하고 전압과 클럭을 조정한 구체적인 수치를 제시하며, 결과적으로 성능 향상을 경험했다는 점을 강조하고 있습니다. 다만, 제시된 벤치마크 수치와 최적화 결과는 개인의 작업 환경에서 도출된 값으로, 공식적인 벤치마크 자료나 제3자의 검증을 거친 데이터는 아니기에 객관적인 사실로 확정하기에는 무리가 있습니다.

반면, 사용된 모델인 Gemma4나 llama.cpp, Vulkan 등의 소프트웨어 스택은 실존하는 기술이며, 하드웨어의 전압 및 클럭 조절이 성능에 영향을 미친다는 점은 일반적인 기술 상식에 부합합니다. 하지만 BC-250을 'PS5'에 비유하거나 특정 CU 개수 차이를 언급하며 성능을 정의한 부분은 주관적인 비유에 가깝기에 정확한 비교 근거에 대한 확인이 필요합니다. 또한, Codex를 통한 자동화 스크립트의 실제 작동 여부와 그 효율성 역시 외부에서 직접 검증할 수 없는 영역이므로 추가적인 확인이 필요합니다. 이처럼 기술적 시도는 흥미로우나, 주장하는 성능 향상 폭의 실효성은 여전히 개인적 경험의 영역에 머물러 있습니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

NVIDIA Developer

CUDA Toolkit Documentation

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

NVIDIA Investor Relations

Quarterly results

기업 실적과 수요 흐름을 확인할 수 있는 공식 실적 자료입니다.

공식 실적

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    원래 설계 목적(?)인 LLM 서빙 머신으로 다시 복귀시켜서 이것 저것 테스트하고 세팅해봄. 작년 말 스팀머신으로 유명했던 BC-250.

    결론만 이야기하면,

    1. 다른 머신이 있고
    2. Gemma4 12B 수준이면 적당하고
    3. 맥미니/맥북 수준의 토큰 생산이면 만족한다

    라고 하면 꽤 괜찮습니다. https://t.co/W5vAcqpQtV

    원문 보기
  2. 2
    1. 환율이 엉망이지만, 지금(26.6.7) 알리 세일이라 카드 할인 +쿠폰 먹이면 103달러 정도에 구매가 가능합니다. 15만원 + 128G SSD + 노는 파워 하나 해서 20만원에 Gemma4 12B + 에이전트를 구축하는 헝그리 로컬 세팅으론 의미가 있는 것 같습니다. 안되면 바자이트 깔아서 게임 하면 되구요. https://t.co/B2f3J1hHNp
    원문 보기
  3. 3
    1. 참고자료
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 BC-250 머신을 활용해 Gemma4 12B 모델을 구동한 결과, 맥미니 수준의 토큰 생산 속도에 만족하며 저예산 로컬 세팅으로서 의미가 있다고 평가했습니다. 하드웨어 가격과 SSD 비용을 합산해 약 20만 원 내외로 에이전트 구축이 가능하다는 구체적인 비용 산출 근거를 제시한 점이 눈에 띕니다. 다만, 언급된 '40CU 언락'이나 구체적인 토큰 생산 속도에 대한 수치는 공식 문서에서 직접적으로 확인되지 않는 개인적 경험치에 가깝습니다.

특히 알리익스프레스의 할인 가격과 환율에 기반한 구매 비용은 시점에 따라 변동성이 크므로 현재 시점에서의 정확한 검증이 필요합니다. 제공된 참고 자료들이 기술적 구현의 방향성은 보여주나, 모든 사용자에게 동일한 성능과 가격 효율이 보장된다는 객관적 증거는 부족해 보입니다. 따라서 해당 세팅의 효율성은 개별 환경에 따라 차이가 클 수 있음을 인지하고 접근하시길 권합니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    모니터는 다다익선임. 하지만 2열은 모가지 나감. 9 제외. 8>7>4>5 순으로 괜찮음. 이동이 많으면 6은 허용. 3은 47인치 51인치라면 괜찮음. 나머지는 비추. 1은 안됨. 32인치가 시아각 허용 최대치.
    원문 보기
  2. 2
    사실 8과 7의 응용으로, 둘은 나란히 두고 15인치급의 모니터를 옆으로 세워서 메신저용으로 쓰는게 작업용으론 제일 편하고 좋았음.
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 모니터 개수와 배치에 따른 효율성을 주장하며, 특정 개수(8, 7, 4, 5순)의 선호도와 2열 배치의 신체적 부담을 언급하셨습니다. 하지만 이러한 주장은 개인의 주관적 경험과 사용 환경에 기반한 견해일 뿐, 이를 뒷받침할 객관적인 통계나 인체공학적 공식 자료는 확인되지 않습니다. 따라서 모니터 개수에 따른 효율성 순위와 시야각의 한계치에 대한 내용은 현재로서는 '확인 필요' 상태의 개인적 의견으로 판단됩니다.

특히 15인치급 모니터를 세워 메신저용으로 활용하는 것이 가장 편했다는 경험적 사례 역시 보편적 사실로 확정 짓기에는 근거가 약합니다. 작업 환경의 최적화는 사용자마다 상이하므로, 제시된 수치들이 모든 사용자에게 적용되는 표준이라고 보기 어렵습니다. 구체적인 근거 자료가 제시되지 않은 만큼, 해당 내용은 개인의 최적화 경험을 공유한 제언으로 이해하는 것이 적절합니다.

원문 해석확인 필요

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    https://t.co/3dSdpSsPrl

    진짜 읽고 있다 보면 얼마나 선민의식과 오만에 찌들어 있는지 감도 안 옴. 이 모든 걸 오로지 나만이 할 수 있다는 교만. 신선 놀음에 도끼자루 썩는 줄 모르는 갑지.

    만약 받아들인다면, 정말 어리석은 결정이 될 것. 지금 상황에서는 평화를 이야기하는 자가 배신자임.

    원문 보기
  2. 2
    반대로, 이 모든 것이 엔트로픽의 현재 취약점을 그대로 드러냄.부족한 컴퓨팅을 엄청 비싸게 빌려왔고, 4.6 이후 모델들은 계속 퇴보중. 이러한 파괴적인 상황을 막기 위해 마케팅, 특히 공포 마케팅에 열을 올리지만 슬슬 약빨이 다해 압도적 규모의 IPO 말고는 문제를 해결할 방법이 없음.
    원문 보기
  3. 3
    하지만 월가의 자본이 그들을 구원할지, 아니면 파멸을 불러올지는 지켜볼 일임.
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 엔트로픽의 내부적 오만함과 모델 성능의 퇴보, 그리고 컴퓨팅 자원 확보의 어려움을 지적하며 IPO 외에는 해결책이 없다는 강한 견해를 밝히셨습니다. 다만, 함께 제시된 Codex 브리프를 살펴보면 정작 근거로 제시된 자료들은 WebGL이나 three.js 같은 웹 그래픽 라이브러리 문서들로, AI 모델의 성능이나 기업 경영 상태와는 직접적인 연관성이 없는 데이터들입니다. 따라서 모델의 퇴보나 공포 마케팅에 관한 구체적인 주장은 현재로서는 객관적 근거가 부족하며 추가적인 확인이 필요합니다.

결과적으로 이번 분석은 사실에 기반한 진단이라기보다 작성자의 주관적 인상이 강하게 투영된 논평에 가깝다고 판단됩니다. 월가의 자본이 구원 혹은 파멸이 될 것이라는 전망 역시 구체적인 지표가 결여된 추측성 의견에 머물러 있습니다. 기술적 실체와 경영 지표가 뒷받침되지 않은 상태에서 내린 결론들은 설득력이 약하며, 주장의 핵심인 '취약점'을 증명할 실질적인 1차 자료를 다시 검토해야 할 것입니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

MDN Web Docs

WebGL API

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

three.js

Documentation

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    Gemma4 QAT 가 나왔네요. 다만 BF16 > QAT4 로 드라마틱한 효과가 나온것처럼 과장했지만 실제론 매직그래프죠. 대부분 Q4_K_S 양자화 쓸텐데

    Gemma4 31B 17.4 > 17.3G Gemma4 26B 16.5G > 14.2 GB Gemma4 12B 6.76G > 6.72G

    Dense 모델에선 거의 효과가 없고, Moe 모델에선 효과가 꽤 있네요. https://t.co/s6mYacJS6U

    원문 보기
  2. 2

    하지만 대부분 주력으로 쓰시는 Gemma4 26B Moe를 큰 변경 없이 16G Vram 에 올려놓는 것은 꽤 멋지네요. 여기에 멀티모달 삭제 하고 이래저래 하면 잘 하면 Q4 양자화 12G 수준에도 볼 수 있겠네요. KV Q4로 128K가 가능할 수 있어요.

    음. 12B 를 먼저 발표한 건 이런 이유였던건가.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Gemma4 QAT 출시와 관련하여 모델별 용량 변화 수치는 공식 자료와 저장소를 통해 어느 정도 확인이 가능합니다. 특히 MoE 모델에서 나타나는 용량 감소 효과는 실재하나, 이를 '매직 그래프'라 칭하며 과장되었다고 판단한 부분은 작성자의 주관적 해석이 강하게 반영된 지점입니다. Dense 모델에서의 효과가 미미하다는 분석 역시 수치상으로는 타당해 보입니다.

다만, 멀티모달 기능을 삭제했을 때 Q4 양자화 기준 12GB 수준까지 용량을 낮출 수 있다거나 KV Q4를 통해 128K 컨텍스트가 가능할 것이라는 예측은 아직 공식적으로 검증되지 않은 추측입니다. 이는 구현 가능성에 기반한 개인적 견해에 가까우므로 실제 적용 여부는 추가적인 확인이 필요합니다. 기술적 가능성과 실제 구현 결과는 엄연히 구분되어야 할 영역입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소