Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    패치가 되었다니 다시 시도해봅니다.

    Q4_K_S, KV Q4 12.25G

    128K라면 16G 맥북에서도 무난하게 돌릴 수 있겠네요. https://t.co/8hVXGEMvFd

    원문 보기
  2. 2

    어디까지나 참고지만, 벤치상 비슷한 수준이 되어야 하는 lfm2.5-8b-a1b 의 경우는 다음과 같습니다.

    언어는 아니고, 다른 걸 시켜 봐야 할 거 같네요. https://t.co/FvIpLOs6mv

    원문 보기
  3. 3

    원샷프롬프트 ‘구글 공룡 게임 만들어줘.’ 결과. 왼쪽 위부터 시계방향으로 lfm2.5-8b-a1b. || gemma-4-12b-it gemma-4-26b-a4b-it || qwopus3.6-27b-v2

    특이점 :

    • lfm2.5-8b 는 게임이라니 유니티 코드를 뱉음
    • qwopus3.6-27b-v2 는 완성도는 우수했으나 조작이 안되는 버그 발생. https://t.co/lKr4SoUM9N
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 특정 모델의 패치 이후 16GB 맥북 환경에서 128K 컨텍스트를 무난하게 구동할 수 있다는 기술적 판단을 내놓으셨습니다. 다만, Codex의 1차 자료 검토 결과 해당 주장은 공식 문서나 저장소를 통해 완전히 검증되지 않은 '부분적 사실'로 분류되어 구체적인 실효성에 대한 확인이 필요합니다. 특히 하드웨어 리소스 점유율과 실제 구동 가능 여부는 사용자 환경에 따라 편차가 크므로, 이를 일반화하기에는 근거가 다소 부족해 보입니다.

이어지는 모델별 코딩 성능 비교 역시 개인적인 테스트 결과에 기반한 주관적 평가라는 점을 유의해야 합니다. lfm2.5-8b의 유니티 코드 출력이나 qwopus3.6-27b-v2의 조작 버그 등은 개별 사례일 뿐, 모델의 전반적인 성능 저하나 결함을 입증하는 객관적 지표로 보기에는 무리가 있습니다. 따라서 제시된 벤치마크 수준의 비교나 특이점들은 공식적인 벤치마크 데이터가 아닌 개인의 경험치로 이해하는 것이 타당합니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

Anthropic Docs

Claude models overview

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서