무슨 일이 일어났나

in-context learning에서 예시를 잘 고르면 성능이 올라가잖아. 그럼 모델 내부 활성값(activation)을 보고 “이 예시가 좋은 예시다”를 판별할 수 있을까? 이걸 실험한 연구가 arXiv에 올라왔는데, 결론은 안 되더라는 거야. LlamaQwen으로 분류·생성 작업을 두루 돌려봤거든.

어떻게 작동하나

연구진은 MLP 활성 패턴, 특히 massive activation이랑 분포의 첫 4개 모멘트를 가지고 예시 선택을 최적화하려 했어. 그런데 활성값 출력이랑 예시 품질 사이 상관이 거의 안 잡혔어. 모든 작업·모델에서 절댓값 Spearman 상관계수가 최대 0.33에 그쳤거든. 연구진은 superposition, 그러니까 모델이 차원 수보다 많은 특징을 욱여넣어 표현하는 현상 때문일 수 있다고 보고, Sparse Autoencoder를 대안으로 제안했어.

실무에서 왜 중요한가

이건 음성 결과라 오히려 쓸모가 있어. “활성값을 보면 좋은 예시를 자동으로 고를 수 있겠지”라는 직관적인 접근이 적어도 이 방식으론 안 통한다는 걸 명확히 했거든. ICL 예시 선택을 자동화하려는 사람이라면 활성값 통계에 바로 기대지 말고 다른 신호를 찾는 게 낫다는 뜻이야. 다만 특정 통계와 모델에 한정된 프리프린트 결과라, 모든 활성값 접근이 실패라고 보긴 일러.