어짜피 AA의 코딩 인덱스는 신뢰가 안되는 물건인게 공개도 오래 되서 인공지능들이 죄다 학습하고 있는 것도 그렇지만

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

1
어짜피 AA의 코딩 인덱스는 신뢰가 안되는 물건인게 공개도 오래 되서 인공지능들이 죄다 학습하고 있는 것도 그렇지만
Gemini 3.1 pro 의 위치가 모든 신뢰를 무너트림. https://t.co/n86hrj9eZE
원문 보기
2
그 외 마누스 스파크라던가, 소넷이라던가 3.5 Flash 라던가 그리고 그럴 리 없는 30B급 로컬모델의 위치라던가 이젠 죄다 벤치 학습된 결과물, 즉 기출문제 다 보고 나서 푼다는 느낌이 들어서 신뢰할 수 없음.
원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 특정 코딩 인덱스의 데이터가 이미 AI 학습에 활용되어 벤치마크 결과의 신뢰도가 낮아졌다고 주장합니다. 특히 Gemini 3.1 Pro를 비롯해 소넷, 3.5 Flash, 그리고 일부 로컬 모델들의 순위가 '기출문제'를 미리 본 결과라고 지적하셨습니다. 다만, 제공된 공식 문서나 저장소 자료만으로는 특정 모델들이 해당 인덱스를 직접 학습했는지 여부를 명확히 입증하기 어려우므로, 이 부분은 추가적인 확인이 필요합니다.

반면, 벤치마크 데이터의 오염(Data Contamination) 가능성은 업계에서 지속적으로 제기되는 실질적인 쟁점이라는 점은 인정됩니다. 하지만 구체적으로 어떤 모델이 어떤 경로로 데이터를 학습했는지에 대한 근거가 부족한 상태에서 모든 결과물을 불신하는 것은 다소 성급한 판단일 수 있습니다. 결국 모델의 실제 성능은 정량적 지표가 아닌 실무 적용 단계의 검증을 통해 판가름 나야 할 것입니다.

실험 맥락운용 관찰재현 포인트