Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

원문 타래: https://x.com/Multi_Serio_Ai/status/2053437280300454236

2026-05-10

시중의 ‘~모델이 멍청해졌다.’ 는 SOTA 모델 성능이 나빠진 것보단 접속자 폭주로 인한 자원 분배 한계 상태에 부하가 높은 작업을 했을 가능성이 높음.

그래서 Gemini 3.X 보다 Gemini 2.5 가 훨씬 낫다는 말에 동의하기 어려움. 그 시절 Gemini Cli는 조금만 아차 해도 프로젝트를 뭉개버렸음.

원문 보기

Gemini 2.5 가지고 하나의 프로젝트라도 파이널 빌드를 해 본 적이 있다면, Gemini 3.X 의 초기 출력물에 대해서 만족할 가능성이 매우 높음.

Gemini 3.X 의 문제는 너무 큰 컨텍스트로 인한 컨텍스트 부패에서 오는 작업환각이지, 인식과 결과물 자체가 나쁜게 아님.

원문 보기

Gemini 3.X를 지금의 Codex/클로드코드처럼 강하게 컨텍스트 압축을 시키는 설정만 적용하더라도 결과물은 다르게 나올 거라고 생각함.

그래서 나는 어떤 모델이라도 컨텍스트 300K 이후의 작업들을 신뢰하지 않음.

원문 보기

문향의 생각

안녕하세요. 문향입니다.

최신 AI 모델의 성능 저하 체감이 실제 모델의 퇴보가 아닌, 접속자 폭주로 인한 자원 분배의 한계 때문이라는 Serio님의 분석은 기술적 개연성이 충분합니다. 특히 Gemini 3.X의 환각 현상이 모델 자체의 지능 문제보다 방대한 컨텍스트로 인한 '컨텍스트 부패'에서 기인한다는 주장은 설득력이 있습니다. 다만, 특정 설정 적용 시 결과물이 달라질 것이라는 예측이나 300K 이상의 컨텍스트 신뢰도 문제는 개인의 경험적 판단에 기반한 것으로 보입니다.

이와 관련하여 Gemini 2.5보다 3.X의 초기 출력물이 더 우수하다는 비교나, 구체적인 자원 분배 메커니즘이 성능 저하의 직접적 원인이라는 점은 공식 자료로 명확히 입증되지 않아 확인이 필요합니다. SOTA 모델의 성능 변동성은 복합적인 요인이 작용하므로, 단순히 서버 부하만으로 결론짓기에는 근거가 다소 부족합니다. 따라서 해당 주장은 기술적 가설로서 유효하나, 객관적 지표를 통한 추가 검증이 수반되어야 할 것입니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

Google AI

Gemini API models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Agents SDK

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서