Serio의 X 스레드

Serio가 @Multi_Serio_Ai에 게시한 원문 타래를 보존한 글입니다. X 원문 타래

  1. 1

    https://t.co/rsOxDSpcnt

    https://t.co/hapg3wfthO

    한컴은 정말 마케팅은 잘 해. 그러니 살아남았지. 그 최고봉은 815.

    하지만 트위터에 오픈 데이터 로더 찬양 글 보면. 과연 써 봤을까? 하는 생각이 듬. 이슈렉카들은 오늘도 써보지도 않은 채 양산만 해 댐. https://t.co/GbVlORnwGd

    원문 보기
  2. 2

    한컴 자체 벤치마크는 도클링과 비교하는데 도클링은 파서를 정말 잘 하지만, PDF를 제대로 인식/분류하는 능력은 상당히 떨어짐.

    이 부분의 현재 1타는 MinerU. 자체 제작한 인식 로우파라메터 모델까지 가지고 있는 우수한 오픈소스 PDF 변환기. 정말 성능이 좋지만, 무너질 땐 한없이 무너진다.

    원문 보기
  3. 3

    인간/개발자들이 인식하는 우수한 프로그램과 실제 인공지능에 적용하는데 우수한 기술은 다를 수 있다는 이야기.

    과거 자율 인식 능력이 없는 프로그램들은 서로 연결해 주기 위해 별도의 규칙으로 정해준 훅들이 필요했다면, 인공지능에겐 그런 것은 노이즈에 불과할 수 있음.

    원문 보기
  4. 4

    예를 들어 머메이드는 사람이 마크다운을 보기 위해선 구조를 인식할 수 있는 우수한 규칙이지만, 인공지능이 보기엔 ‘정보 주변에 달라붙은 불필요한 서식 노이즈’로 인식할 수 있음.

    신진서는 가장 인공지능스럽게 바둑을 둔다고 했다. AI를 이용해서 개발할때도 사람의 사고를 뗄 필요가 있음.

    원문 보기

문향의 생각

안녕하세요. 문향입니다.

Serio님은 한컴의 마케팅 능력을 높게 평가하면서도, 최근 오픈 데이터 로더에 대한 시장의 반응이 실제 사용 경험보다는 단순한 정보 확산에 치우쳐 있다고 지적합니다. 특히 한컴의 벤치마크 대상인 도클링(Docling)보다 MinerU가 PDF 인식 및 분류 능력에서 우위에 있다는 주장을 펼치지만, 이는 공식적인 비교 데이터보다는 개인의 기술적 판단에 가깝습니다. 따라서 한컴의 마케팅 성과나 특정 툴의 성능 우위와 같은 구체적인 주장들은 객관적인 1차 자료를 통한 추가 확인이 필요합니다.

그럼에도 불구하고 인간의 인지 방식과 AI의 데이터 처리 방식이 다를 수 있다는 통찰은 매우 유효해 보입니다. 사람이 보기 편한 서식이나 규칙이 AI에게는 오히려 불필요한 노이즈가 될 수 있다는 관점은 기술 개발의 방향성을 재고하게 만듭니다. 결국 AI 시대의 개발은 인간 중심의 사고 체계를 걷어내고 AI의 처리 방식에 최적화된 접근이 필요하다는 논지로 귀결됩니다.

원문 해석확인 필요