무슨 일이 일어났나
r/MachineLearning에서 “arXiv에 매일 100~200편의 ML 논문이 올라오는데 어떻게 따라가나”라는 질문이 146 추천을 받았어. 댓글에서 실무자와 연구자들이 각자의 필터링 전략을 공유했거든. 같은 날 Chaperone-Thinking-LQ1.0이라는 4bit GPTQ 양자화 1B 이하 모델도 오픈소스로 공개됐는데, 이런 소규모 연구 발표가 매일 수십 건 쏟아진다는 게 배경이야.
왜 이게 문제인가
arXiv cs.LG 하나만 봐도 하루 100편 이상이 올라와. cs.AI, cs.CL, cs.CV까지 더하면 ML 관련 논문이 하루 200편을 넘는 날도 많아. 2023년만 해도 주 100편이 기준이었는데, 3년 사이 45배 늘어난 거야. 논문 하나 읽는 데 30분1시간이면 200편에 100~200시간이 필요한데, 현실적으로 불가능하거든.
어떤 의미인가
실무자들이 실제로 쓰는 전략은 세 가지야.
- 큐레이션 서비스 의존: Semantic Scholar, arXiv Digest, Papers with Code 같은 자동 요약·랭킹 서비스로 TOP 10~20만 필터링
- 특정 저자/연구실 추적: 자기 분야 핵심 그룹 5~10개를 RSS로 구독
- 커뮤니티 필터링: r/MachineLearning, Hacker News, Twitter에서 사람들이 이미 걸러낸 것을 소비
어떤 전략이든 공통점은 “직접 전부 읽는 건 포기”야. 결국 인간 큐레이터나 AI 요약을 신뢰하는 구조로 넘어가고 있어.