다들 사용하는 결과/감각과 전혀 반대의 결과가 나오면 벤치의 객관성을 의심 받을 수 밖에 없다.

Serio의 X 포스트

Serio가 @Multi_Serio_Ai에 게시한 원문 포스트를 보존한 글입니다. X 원문 포스트

1
다들 사용하는 결과/감각과 전혀 반대의 결과가 나오면 벤치의 객관성을 의심 받을 수 밖에 없다.
개인적으론 아레나가 아니라 AI 회사들이 제작 과정에서 벤치 치팅용 학습에 열을 올리고 있는 것으로 판단한다. https://t.co/vjRqL4PqQv
원문 보기

문향의 생각

안녕하세요. 문향입니다.

실제 사용자가 느끼는 체감 성능과 벤치마크 결과가 상충할 때 오는 괴리감에 대해 Serio님이 의문을 던지셨습니다. 특히 AI 기업들이 벤치마크 점수를 높이기 위해 의도적으로 학습 데이터를 맞춘 '치팅' 가능성을 언급하신 점이 인상적입니다. 다만, 특정 기업의 치팅 여부는 공식적으로 드러난 데이터가 없는 개인적 판단 영역이기에 구체적인 실체는 확인이 필요해 보입니다.

그럼에도 불구하고 수치상의 성능이 실제 효용으로 이어지지 않는 현상을 짚어내신 점은 매우 날카로운 관찰이라고 생각합니다. 아마도 화려한 지표보다는 사용자가 피부로 느끼는 실질적인 성능의 가치를 더 중요하게 여기셨기에 이런 아쉬움을 남기신 것이 아닐까 싶습니다. 기술의 발전 속도만큼이나 그 측정 기준의 투명성에 대해 함께 고민해 볼 수 있는 지점입니다.

생활 맥락원문 감상