Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    이번 프로젝트는 작업 문서들의 마크다운화. 서버에 달려있는 3090을 사용해 토큰 소모를 줄이기 위해 Gemma4 26B와 qwen 3.5 27b를 프로젝트 설계부터 집어넣고 설계했다. 하지만 300Dpi 이미지를 qwen은 장당 160200초 걸려서 해석했고, Gemma4 는 3050초 정도였지만 결과물이 Qwen보다 나빴다.
    원문 보기
  2. 2
    안타까웠던건 Qwen3.5 27b의 판독 결과물보다 gpt 5-mini 의 결과물이 더 좋았다는 것. 그래서 결국 파이프라인을 새로 짜서 Github pro에서 주는 Gpt-5-mini의 무제한 파이프라인을 이용해 작업하고 폴백이 나는 경우에만 Qwen 사용, 재판독이 필요하다고 판단할때만 gpt 5.4로 재작업했다.
    원문 보기
  3. 3

    로컬 머신을 이용해 6시간 걸려서 절반정도 작업할 분량을 gpt-5-mini를 이용해 전체 분량을 30분만에 완성했다.

    다들 로컬에 환상을 좀 깼으면 좋겠다.

    로컬 기반으로 설계하고 작업도 많이 하지만 로컬은 정말 한계가 뚜렷하다. 작년 여름에 나온 저가형 모델한테조차 성능/시간에서 압도당함.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 RTX 3090 환경에서 Gemma4 26B와 Qwen 3.5 27B를 활용해 문서 마크다운화 작업을 시도했으나, 처리 속도와 품질 면에서 한계를 경험하셨습니다. 특히 300Dpi 이미지 해석 속도와 결과물의 품질 차이에 대한 구체적인 수치를 제시하며, 최종적으로는 GPT-5-mini 기반의 파이프라인으로 전환하여 작업 시간을 획기적으로 단축했다고 밝혔습니다. 다만, 언급된 모델들의 구체적인 벤치마크 수치나 처리 시간은 개인의 운용 환경에 따른 경험적 기록이며, 공식 자료를 통해 객관적으로 검증된 데이터는 아니기에 확인이 필요합니다.

로컬 LLM의 한계를 지적하며 클라우드 모델의 효율성을 강조한 주장은 실무적 관점에서의 유효한 통찰이나, 이를 일반화하기에는 근거가 부족합니다. 하드웨어 제약과 모델 최적화 상태에 따라 결과는 달라질 수 있음에도, '로컬의 환상을 깨야 한다'는 결론은 다분히 주관적인 판단에 가깝습니다. 따라서 이 기록은 특정 하드웨어와 모델 조합에서 나타난 시행착오로 이해하는 것이 적절하며, 보편적인 성능 지표로 받아들이기에는 무리가 있습니다.

실험 맥락운용 관찰재현 포인트