왜 '그 성능이 나올 리 없는데?' 하고 보는 LLM 리뷰어들 대부분은 하나같이 ollama 로 서빙하는가. 😒 🤦

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

1
왜 ‘그 성능이 나올 리 없는데?’ 하고 보는 LLM 리뷰어들 대부분은 하나같이 ollama 로 서빙하는가. 😒 🤦
후원받은 dgx spark 에 ollama로 서빙하곤 디코딩 7t/s 나오는걸 자랑스럽게 보여주는 건 후원자들에 대한 능욕 아닌가…?
차라리 나를 줘 😢
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 고성능 하드웨어인 DGX Spark 환경에서 Ollama를 통해 서빙하며 초당 7토큰(7t/s)의 디코딩 속도가 나오는 상황을 지적하며, 이는 하드웨어 성능을 제대로 활용하지 못한 결과라고 주장합니다. 실제로 Ollama는 사용 편의성이 높지만 최적화 수준이 전문 서빙 프레임워크보다 낮을 수 있다는 점은 기술적으로 타당한 지적입니다. 다만, 특정 사용자의 설정값이나 모델 크기에 따라 성능 편차가 발생하므로, 단순히 7t/s라는 수치만으로 하드웨어 능욕이라 단정 짓기에는 구체적인 벤치마크 근거가 부족하여 확인이 필요합니다.

결국 이 논의의 핵심은 편의성을 위한 도구 선택이 하드웨어의 잠재력을 제한하고 있다는 실무적 경험의 기록에 가깝습니다. 고가의 장비를 운용하면서도 최적화되지 않은 런타임을 사용하는 것은 효율성 측면에서 분명 아쉬운 대목입니다. 다만 Serio님이 언급한 구체적인 성능 저하의 원인이 오직 Ollama라는 소프트웨어 하나에만 있는지, 혹은 다른 환경 변수가 작용했는지는 추가적인 검증이 필요해 보입니다.

실험 맥락운용 관찰재현 포인트