Serio의 X 스레드
Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래
- 1원문 보기
찾아보다가 BC-250을 찐 PS5로 만들어 주는 깃허브 저장소가 있어서 Codex + Superpower 에 Xhigh 로 던져서 적용까지 마치라 해놓고
밥먹으러 다녀옵니다.
뭐먹징.
- 2원문 보기
Codex : ‘저장소는 페도라/바자이트 기준인데, 우리는 우분투잖아요? 커널 빌드 새로할께요~ 이꾸요.’
10분 후
‘원샷 프롬프트 만들어 왔어요. Sudo 로 스크립트 실행해 주세요.’
3분 후
‘잘 됐네요. 코어 속도 1500Mhz 로 했으니 여기서부터 시작해 봅시다. 검증할께요.’
- 3원문 보기
여튼 제 BC-250 이 PS5가 되었단 소식인데요. 심지어 원본 PS2 보다 CU가 2개 더 많은건데요.
벤치 돌리고 올께요.
- 4불행 중 다행인가. 다 불량은 아닌 모양. CU 8개는 살릴 수 있을듯. https://t.co/jNRiNbHAh4원문 보기
- 5원문 보기
코어 8개는 살려 놨는데, llama.cpp와 vulkan 의 부조화가 서빙을 방해하기 시작한다. 모델이 갑자기 정형행동을 하는 앵무새가 되어버림.
Cuda Cuda 어렵다 독점이다 말 많아도 경쟁자들이 더 엉망이기 때문에 이기는 법이지.
- 6원문 보기
작업 결과 : 36/40Cu
Codex 로 자동스크립트 만들어서 불량 코어 체크.
2CU가 1 WGP 에 들어가 있는 구조인데, 아예 응답이 없는 WGP 가 1개, 응답은 있으나 정상 작동을 안하는 WGP를 1개 찾아내고 바이패스 처리.
현재 Gemma4 12b/Qwen 9B 장기 부하 테스트중. 15/30 사이클 진행 중 이상 없음.
- 7원문 보기
2000mhz / 1000Mv 의 기본 세팅에선 발열 제어가 안되므로 1500mhz / 900Mv 로 커널 전압 설정 변경. CU가 16개 추가 작동하기 때문에 한 5~10Tok/s 의 성능 향상을 기대 중.
여기에 Gemma4 12b mtp 적용시키면?
50Tok/s 만 나오면 좋겠네.
- 8원문 보기
성공 야호-!
18.9 Tok/s > 20.1 Tok/s > 23.87 Tok/s
여기에 새벽에 올라온 Mtp 붙여서 30~35 Tok/s 붙이면 실사용권! https://t.co/AihX3oLe2o
- 9원문 보기
성공 경험 묶어서 자동화 스크립트로 만드는 중.
역시 /goal 이 이럴때 좋네.
- CU 활성화
- 정상 CU 체크 프로세스
- 커널 작동속도/전압 컨트롤
- 안정화 검증
- 10원문 보기
Gemma4 MTP 대성공 야호-!
BC-250 / Gemma4 12B Q6 KVQ8 MTP 디코딩 35.13Tok/s!
이정도면 에이전트나 챗봇에 써도 아무 문제 없는 속도네요. https://t.co/1pXRhlrUl1
문향의 생각
안녕하세요. 문향입니다.
Serio님은 BC-250 하드웨어의 커널 설정을 변경하여 성능을 끌어올리고, Gemma4 및 Qwen 모델의 추론 속도를 측정하며 실사용 가능 수준의 토큰 생성 속도를 확인했다고 주장합니다. 특히 불량 코어를 체크하여 바이패스 처리하고 전압과 클럭을 조정한 구체적인 수치를 제시하며, 결과적으로 성능 향상을 경험했다는 점을 강조하고 있습니다. 다만, 제시된 벤치마크 수치와 최적화 결과는 개인의 작업 환경에서 도출된 값으로, 공식적인 벤치마크 자료나 제3자의 검증을 거친 데이터는 아니기에 객관적인 사실로 확정하기에는 무리가 있습니다.
반면, 사용된 모델인 Gemma4나 llama.cpp, Vulkan 등의 소프트웨어 스택은 실존하는 기술이며, 하드웨어의 전압 및 클럭 조절이 성능에 영향을 미친다는 점은 일반적인 기술 상식에 부합합니다. 하지만 BC-250을 'PS5'에 비유하거나 특정 CU 개수 차이를 언급하며 성능을 정의한 부분은 주관적인 비유에 가깝기에 정확한 비교 근거에 대한 확인이 필요합니다. 또한, Codex를 통한 자동화 스크립트의 실제 작동 여부와 그 효율성 역시 외부에서 직접 검증할 수 없는 영역이므로 추가적인 확인이 필요합니다. 이처럼 기술적 시도는 흥미로우나, 주장하는 성능 향상 폭의 실효성은 여전히 개인적 경험의 영역에 머물러 있습니다.
팩트 체크 & 근거 자료
X 원문
Serio original post
Serio가 X에 게시한 원문입니다.
X 원문Google AI
Gemma
해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.
공식 문서ggml-org
llama.cpp repository
기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.
원 저장소NVIDIA Developer
CUDA Toolkit Documentation
해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.
공식 문서NVIDIA Investor Relations
Quarterly results
기업 실적과 수요 흐름을 확인할 수 있는 공식 실적 자료입니다.
공식 실적
