Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    엔트로픽이 신입 입사과에 윤리적 검토 및 요구를 빡세게 한다는 것을 보며 한국의 MMI가 생각났음.

    윤리적 질문은 상대방이 원하는 대답이 무엇인지 파악하고 거기에 맞는 대답을 하는 문제해결력만 파악할 수 있을 뿐 실제 대답하는 사람이 윤리적이라는 보장은 없다.

    원문 보기
  2. 2

    애초부터 이런 글을 공식적으로 쓰는데 AI와 철학, 윤리적 고뇌를 물어본다는 것은 거꾸로 ‘사상검증’ 을 하고 있지 않은가에 대한 강한 의구심을 가지게 만듬. Ai 를 통한 문제 해결 및 인류에 대한 기여가 아니라

    ‘빨갱이인가 아닌가?’

    https://t.co/d9PCSs9Npy

    원문 보기
  3. 3

    그래서 선을 말할 때에는 자신의 행동을 돌아봐야 한다는 것. 반구저기 (反求諸己) 의 자세가 없는 상황에서 선을 말하는 행위는 얼마나 공허한 일인지. 노골적인 위선과 자위적 태도에 실소만 나올 뿐.

    https://t.co/Us5ds78Kpe https://t.co/mwww4EzIn1

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

엔트로픽이 신입 채용 과정에서 윤리적 검토를 강화하고 있다는 점은 사실에 기반한 관찰입니다. 다만 이를 한국의 다중미니면접(MMI)과 연결 지어, 윤리 질문이 실제 인성보다는 정답을 맞히는 '문제 해결력'만을 측정한다는 주장은 작성자의 개인적 해석에 해당합니다. 특히 이러한 과정이 특정 이념을 확인하려는 '사상검증'의 성격을 띤다는 주장은 구체적인 근거가 제시되지 않았으므로 확인이 필요합니다.

나아가 선을 말하는 행위가 위선적이거나 자위적이라는 비판 역시 주관적인 가치 판단의 영역입니다. 반구저기(反求諸己)의 자세를 언급하며 상대의 태도를 지적한 부분은 논리적 추론이라기보다 감정적 평가에 가깝습니다. 기업의 채용 기준이 실제 윤리적 역량으로 이어지는지는 별개의 검증이 필요하며, 현재의 주장은 근거가 다소 약한 편입니다.

원문 해석확인 필요

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    잠이 안와 오푸스 4.8 프롬프트 가이드 읽고 있는데 이리보고 저리봐도 뭔가 수상하네. 대답이 단순해지고, 도구 호출이 잘 안되고, 에이전트 스팸도 안되는 건 대부분 모델 능력이 떨어질 때 나오는 대표적 현상인데 마치 그걸 설계된 모델 특성처럼 설명하네. 추론이 꺼져서 그런 것일텐데.
    원문 보기
  2. 2

    근데 추론이 기본적으로 켜진 Opus 4.7과 추론이 기본적으로 꺼진 Opus 4.8의 가격이 같다는 건, 실제론 최소 2~3배의 가격 상승이 일어난 거랑 마찬가지 아닌가?🫠

    내가 클로드에 비판적인 입장이라 주관이 실려서 이렇게 해석하는 거라면 다행이겠지만, 실제로 그런 의도라면 이건 재앙이 될 수도.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 오푸스 4.8의 프롬프트 가이드가 모델의 성능 저하 현상을 마치 의도된 설계 특성인 것처럼 설명하고 있다고 지적하셨습니다. 특히 대답의 단순화와 도구 호출 능력 저하를 추론 기능의 비활성화와 연결 지어 분석하셨는데, 이는 공식 문서상으로 명확히 입증된 사실이라기보다 사용자 경험에 기반한 추론에 가깝습니다. 따라서 해당 현상이 실제 모델의 능력 저하인지, 혹은 설계 의도인지에 대해서는 추가적인 기술 검증과 확인이 필요합니다.

가격 정책에 관한 주장 역시 논란의 여지가 있습니다. 추론 기능의 기본 설정 변경이 실질적인 비용 상승과 같다는 시각은 경제적 관점의 해석일 뿐, 공식 가격표상의 수치와는 괴리가 있습니다. 다만, 동일 비용 대비 제공되는 성능의 가치가 하락했다는 주장은 타당한 의구심이며, 이를 '재앙'으로 표현하신 부분은 주관적 판단이 강하게 반영된 결과로 보입니다. 결국 성능 지표의 실질적 변화가 확인되지 않는 한, 이 논의는 가설 단계에 머물 수밖에 없습니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

Anthropic Docs

Claude models overview

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    On Claude Opus 4.8, thinking is off unless you explicitly set thinking: {type: “adaptive”}. The triggering behavior for adaptive thinking is steerable.

    🤔🤔🤔🤔 이게 맞아요?

    https://t.co/SPO5jxzGyH https://t.co/CxyhvkEdv6

    원문 보기
  2. 2원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님이 주장하신 Claude Opus 4.8의 'thinking' 설정 방식과 그 제어 가능 여부는 현재 공식 문서만으로는 완전히 검증되지 않은 상태입니다. Codex의 1차 자료 검토 결과에서도 해당 주장은 '부분적(partial)'으로만 인정되었으며, 이는 공식 자료가 주장의 세부 내용을 직접적으로 뒷받침하지 못하고 있음을 의미합니다. 특히 특정 설정값(`type: "adaptive"`)을 입력해야만 기능이 활성화된다는 구체적인 메커니즘은 공식 문서에서 확인되지 않아 추가적인 검증이 필요합니다.

결과적으로 이번 주장은 실제 사용자 경험에 기반한 가설일 가능성이 높으며, 기술적 근거가 충분히 확보되지 않은 상태에서 제시된 의견에 가깝습니다. Anthropic의 공식 모델 개요나 기술 문서에서 해당 설정법이 명시되지 않았다면, 이를 확정적인 사실로 받아들이기에는 근거가 약하다고 판단됩니다. 따라서 해당 기능의 작동 방식과 제어 가능 여부는 공식 업데이트나 기술 명세서가 공개될 때까지 '확인 필요' 상태로 두는 것이 타당합니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

Anthropic Docs

Claude models overview

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

GitHub Docs

GitHub Actions

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

엔트로픽이 급했네.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    엔트로픽이 급했네. 내부 사용자 지표들이 많이 나쁜가. 4.6은 그대로 두고 4.7은 바로 레거시로 확 밀어버려 안보이게 치우는 걸 보니 자기들도 4.7은 문제가 많았다는 걸 스스로 아는 듯. https://t.co/YVZ8Ey3AFN
    원문 보기
  2. 2

    이 벤치를 놓고, 이번 4.8의 3% 성능 향상을 집어넣으면 이제 GPT 5.5 와 비슷해진 느낌인데 어떤 결과를 보여줄지는 자고 일어나면 자료들이 나와 있겠지.

    사실 4.8이 아니라 미소스가 나와야 되는게 아닌가 싶지만 그건 공포마케팅용으로 철저히 숨겨야 하는 미노타우르스니깐. https://t.co/HwfdFHuLwo

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 엔트로픽이 모델 4.7 버전을 빠르게 레거시로 처리한 점을 들어 내부 지표 악화와 제품 결함을 주장하셨습니다. 하지만 제공된 1차 자료와 공식 문서만으로는 4.7 버전의 삭제가 실제 성능 결함이나 사용자 지표 하락 때문인지 명확히 입증되지 않으며, 이는 추측에 기반한 판단으로 보입니다. 따라서 해당 부분은 구체적인 내부 데이터가 공개되기 전까지는 확인이 필요한 영역입니다.

또한 4.8 버전의 성능 향상이 GPT 5.5와 유사한 수준이라는 주장과 '미소스' 모델의 존재 가능성 역시 근거가 약합니다. 벤치마크 수치상의 미세한 차이를 모델 간의 실질적 체급 비교로 연결 짓는 것은 논리적 비약이 있으며, 언급된 미소스 모델은 공식 자료에서 확인되지 않는 가설적 대상입니다. 결과적으로 이번 분석은 사실보다는 개인의 직관과 시장의 분위기에 의존한 논평에 가깝습니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    한국 회사 AI FOMO들 전부 클로드랑 클로드코드로 꺼들먹거리는 거 보고 있으면 흠… 🤔

    그거 비지니스 Api 로 돌릴 돈이면 Gpt 비지니스로 Codex 뿌려주고 남는 돈으로 kimi 2.6 or Qwen 3.7 max Api 뚫어주거나 로컬 Api 뽑아 줄텐데.

    뭐 내돈 아니니 알빤가.

    원문 보기
  2. 2원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 국내 기업들이 클로드(Claude)와 클로드 코드에 과도하게 의존하는 경향을 지적하며, 비용 효율성 측면에서 GPT 비즈니스나 Kimi, Qwen 같은 대안 모델 및 로컬 API 활용이 더 합리적이라고 주장하셨습니다. 이 중 모델들의 존재와 API 제공 여부는 공식 문서(OpenAI, Google AI 등)를 통해 확인되는 사실입니다. 다만, 특정 모델 조합의 비용이 클로드 비즈니스 API보다 반드시 저렴하다거나 효율적이라는 구체적인 수치적 근거는 제시되지 않았으므로, 이는 개인의 판단 영역에 가깝습니다.

특히 '한국 회사 AI FOMO'라는 표현을 통해 나타난 시장의 심리적 상태나, 특정 도구 사용을 '꺼들먹거린다'고 정의한 부분은 객관적 지표로 증명할 수 없는 주관적 견해입니다. 또한, 언급된 모델들의 최신 버전(Kimi 2.6, Qwen 3.7 max 등)이 실제 비즈니스 환경에서 클로드의 대체재로서 동일한 성능을 내는지에 대해서는 추가적인 검증이 필요합니다. 결론적으로 기술적 대안의 존재는 사실이나, 그것이 현재의 기업 선택보다 우월하다는 주장은 근거가 약하며 확인이 필요한 영역입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

OpenAI Docs

Agents SDK

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    사실 대중의 AI 에 대한 이해는 아직까지도 ‘세종대왕 맥북 프로’ 에 머물러 있기 때문에 AI로 뭔가를 계속 만들어도 그것이 변화를 이끌어 내긴 어려움.

    대부분은 경험에 의존한 편견, 한둘의 경험을 바탕으로 한 확증편향으로 세상을 살아간다.

    인간은 아직 육체적으로 원시인을 벗어나지 못함.

    원문 보기
  2. 2

    인간은 그 육체적인 한계를 바탕으로 한 사고의 한계를 벗어나지 못하기 때문에 다른 차원의 종으로 진화할 기회를 스스로 만들어 냈더라도 그걸 스스로 걷어차고 몰락할 것이다.

    라고 생각함.

    물론 아닐수도 있고. 아니면 좋겠고. 🤖

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 대중의 AI 이해도가 낮아 기술적 진보가 실질적인 변화로 이어지기 어렵다고 주장하며, 인간의 인지적 편향과 육체적 한계가 사고의 제약으로 작용한다고 분석하셨습니다. 다만, 대중의 인식 수준이 특정 밈(meme) 수준에 머물러 있다는 주장이나 인간의 생물학적 한계가 진화의 기회를 가로막아 결국 몰락으로 이어질 것이라는 전망은 객관적 지표로 증명된 사실이라기보다 작성자의 주관적 통찰에 가깝습니다.

특히 인간이 사고의 한계로 인해 진화의 기회를 스스로 걷어차고 몰락할 것이라는 비관적 전망은 구체적인 근거가 부족한 가설 단계의 주장으로 보입니다. NIST나 OECD의 AI 원칙과 같은 공식 자료에서도 이러한 결정론적 몰락을 직접적으로 다루고 있지는 않기에, 해당 부분은 논리적 추론에 기반한 개인적 견해로서 추가적인 검증과 확인이 필요합니다. 그럼에도 이러한 시각은 기술 만능주의에 경종을 울린다는 점에서 유의미한 논의의 시작점이 될 수 있습니다.

원문 해석확인 필요

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1
    음 혹시 Codex 의 Build Web Data Visualization 에 버그가 있는 거 같아요. Codex 데스크톱 앱으론 설치되는 걸로 보이지만 Cli 로는 실제 10개 중 8개 하위 스킬이 내부 스킬 이름 글자수 제한에 걸려서 작동을 안하네요. 확인해 보시겠어요? @OpenAI @OpenAIDevs @thsottiaux https://t.co/3MBRj6zwjD
    원문 보기
  2. 2
    @OpenAI @OpenAIDevs @thsottiaux https://t.co/9Xn2YvJk2n 헬프 서포트 챗봇으로 구체적인 보고서와 오류 스크린샷도 발송해 두었습니다.
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 Codex의 'Build Web Data Visualization' 기능 중 CLI 환경에서 하위 스킬의 이름 글자 수 제한으로 인해 작동 오류가 발생한다고 주장하셨습니다. 데스크톱 앱에서는 설치되는 것처럼 보이지만, 실제로는 10개 중 8개의 스킬이 정상 작동하지 않는다는 구체적인 수치를 제시하며 공식 서포트 채널에 보고서와 스크린샷을 제출한 상태입니다.

다만, 제공된 1차 자료 검토 브리프에 따르면 해당 주장은 '부분적(partial)'으로만 확인되었으며, 공식 문서나 저장소를 통해 버그의 실체가 명확히 입증된 상태는 아닙니다. 특히 CLI 환경에서의 특정 글자 수 제한이 오류의 직접적인 원인인지에 대해서는 공식 자료가 뒷받침하지 못하고 있어 추가적인 확인이 필요합니다. 사용자 경험에 기반한 구체적인 제보임에도 불구하고, 기술적 근거가 공식적으로 확인되지 않은 점은 아쉬운 부분입니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

OpenAI Docs

Agents SDK

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

오늘 원래 해야 할 일을 새벽에 어느 정도 끝내 놔서

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    오늘 원래 해야 할 일을 새벽에 어느 정도 끝내 놔서

    오늘은 Gpt 한테 이걸 시켜 보겠어요

    https://t.co/PxhHGN9fRz

    원문 보기
  2. 2
    아니 … 이게 이렇게 찰떡같이 될 일인가??? 귀찮아서 미뤄놨던게 숙숙 넘어가네. https://t.co/lOWgkgICBm
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 새벽에 업무를 미리 처리한 후, 평소 미뤄두었던 작업을 GPT에게 맡겼으며 그 결과가 기대 이상으로 만족스럽다는 개인적인 경험을 공유하셨습니다. 다만, 제시된 Codex 브리프에 따르면 해당 내용은 작성자의 주관적 해석과 판단에 기반한 '의견'으로 분류되어 있으며, 객관적으로 검증 가능한 사실관계는 포함되어 있지 않습니다.

특히 GPT가 작업을 '찰떡같이' 수행했다는 구체적인 성과나 효율성의 근거는 공식 자료를 통해 확인되지 않았으므로, 이는 개별적인 사용 경험에 따른 주관적 체감일 가능성이 큽니다. 따라서 실제 작업의 정확도나 성능 향상 여부는 구체적인 결과물에 대한 대조 검토가 이루어지기 전까지는 확인 필요 단계로 보아야 합니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    라즈파이 하나는 파이홀/ VPN, 다른 하나는 외장하드 달아 git/파일 임시공유용 나스로 세팅해 둔 뒤

    ‘더 할 거 없어?’ 라고 Gpt에게 물어봄.

    바로 라즈 2번을 서브파이홀(dns단락 fallback)세팅, dns 세팅 자동백업 스케쥴러와 테일넷 보안 점검을 제안하고 수행.

    진짜 알고 쓰면 사람보다 낫다.

    원문 보기
  2. 2원문 보기
  3. 3

    🤔🤔🤔🤔🤔 그렇구만. 파이홀만으로 모두 될 건 아니고, 그냥 추가 방어선 하나 더 깔아놓은걸로 판단하고 진행하는게 효과가 좋다.

    굿굿개굿. https://t.co/tVuQSWgo1k

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 라즈베리 파이 두 대를 각각 VPN/파이홀과 NAS로 운용하던 중, GPT의 제안에 따라 서브 파이홀 설정과 백업 스케줄러, 테일스케일 보안 점검을 수행했다고 주장합니다. 이 과정에서 GPT가 제시한 기술적 조치들은 일반적인 네트워크 구성 및 보안 관리 범주에 속하므로 사실로 보이나, 실제 해당 설정이 완벽하게 구현되었는지는 제공된 텍스트만으로는 확인이 어렵습니다. 특히 '사람보다 낫다'는 평가는 개인의 주관적 경험에 기반한 것이므로 객관적 사실과는 거리가 있습니다.

더불어 파이홀 추가 설치를 '추가 방어선'으로 판단한 부분은 네트워크 가용성 측면의 의견일 뿐, 이것이 절대적인 보안 향상을 보장한다는 근거는 부족합니다. 제시된 Codex 브리프에서도 해당 내용은 작성자의 해석이나 판단에 가까운 '의견'으로 분류되어 있으며, 구체적인 성능 향상 수치는 제시되지 않았습니다. 따라서 GPT의 제안이 실제 환경에서 어느 정도의 실효성을 거두었는지는 추가적인 검증이 필요한 영역입니다.

원문 확인근거 분리판단 정리

팩트 체크 & 근거 자료

GitHub Docs

GitHub Actions

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

THREAD ESSAYX THREAD ARCHIVE

아.

2개 글

Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    아. 오픈 코드가 망가졌다. codex 이후에도 로컬 하네스 등등으로 잘 써 오고 있었는데 서브 에이전트 콜링이 안됨

    고쳐야되네…

    원문 보기
  2. 2
    코덱스 이번엔 너로 정했다 https://t.co/Sk0sQPEHyA
    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 오픈 코드의 서브 에이전트 콜링 기능에 결함이 발생했음을 알리며, 이를 해결하기 위해 특정 모델을 활용하겠다는 의사를 밝혔습니다. 제시된 1차 자료 검토 브리프를 보면 X 원문과 구글 젬마, llama.cpp 저장소 등이 출처로 명시되어 있으나, 정작 서브 에이전트 콜링의 구체적인 오류 내용이나 기술적 결함의 실체는 공식 문서에서 직접 확인되지 않습니다. 따라서 현재로서는 시스템의 실제 고장 여부와 그 원인이 무엇인지에 대해 추가적인 확인이 필요합니다.

반면, Serio님이 특정 모델을 선택하여 문제를 해결하려 한다는 주관적 의지는 원문과 브리프를 통해 명확히 드러납니다. 다만, 해당 모델이 실제로 이 문제를 해결할 수 있는 적합한 도구인지에 대한 객관적 근거는 이번 자료만으로는 판단하기 어렵습니다. 기술적 해결책으로 제시된 방향성이 실효성이 있는지는 향후 실제 수정 결과물을 통해 검증되어야 할 부분입니다.

실험 맥락운용 관찰재현 포인트

팩트 체크 & 근거 자료

Google AI

Gemma

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

ggml-org

llama.cpp repository

기술 구현과 변경 이력을 확인할 수 있는 원 저장소입니다.

원 저장소

OpenAI Docs

Agents SDK

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서

OpenAI Docs

Models

해당 주제의 사실관계를 확인할 때 우선 참고할 수 있는 공식 자료입니다.

공식 문서