흠... 터미널 벤치마크 88.0%

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
흠… 터미널 벤치마크 88.0% 근데 터미널 벤치마크 2.1 Opus 4.8 이 78.9% 일텐데?
흠… https://t.co/F9f1sGCIhF
원문 보기
2
혹시나 몰라 특이점갤에 가보니 ㅋㅋ
- 싱글턴 추론 토큰 14분 300K (멈추지 않음)
- 가이드 튕기면 오푸스 전환
- 거의 모든 기본적 작업에도 답변 거부
- 수능 생물, 사회 문화 문항에 답변 거부
이렇게 개발자들과 사용자 반응이 엇갈리는 모델은 또 처음보네.
원문 보기
3
- 6월 22일까지 Fable 5는 Pro, Max, Team 및 사용자 기반 Enterprise 플랜에 추가 비용 없이 포함됩니다.
- 6월 23일부터 Fable 5는 해당 플랜에서 제외됩니다. 이후에는 이용 크레딧이 필요합니다 . 용량이 허용하는 경우, 포함된 기간을 연장해 드릴 수 있습니다.
ㅋㅋㅋ 이런건 처음보네 https://t.co/lLPfaX2PJa
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 언급한 Fable 5의 플랜 변경 일정과 비용 발생 시점은 공식 안내 문구의 형태를 띠고 있어 사실일 가능성이 높습니다. 다만, 터미널 벤치마크 수치와 관련하여 Opus 4.8과의 비교 우위를 주장한 부분은 제시된 자료만으로는 그 정확성을 완전히 담보하기 어렵습니다. 수치상의 차이가 존재하더라도 측정 환경과 기준이 명시되지 않았다면, 이를 객관적인 성능 지표로 확정 짓기에는 근거가 부족합니다.

특히 커뮤니티 반응을 인용하며 언급한 답변 거부 사례나 추론 토큰의 이상 동작 등은 개별 사용자의 경험치에 의존한 주관적 영역입니다. 이러한 현상이 모델의 보편적인 결함인지, 혹은 일시적인 오류인지에 대해서는 공식적인 기술 문서나 벤치마크 결과로 확인되지 않았기에 추가적인 확인이 필요합니다. 개발사 측의 정량적 지표와 실제 사용자들의 정성적 평가가 극명하게 엇갈리는 지점이 이번 논란의 핵심이라고 판단됩니다.

원문 확인근거 분리판단 정리