한 줄 정의
Synthetic Data는 실제 기록을 그대로 모은 데이터가 아니라, 실제 데이터의 패턴을 흉내 내서 만든 인공 데이터야. 핵심은 가짜라는 말보다 학습, 테스트, 평가에 쓸 대체 재료라는 점이야.
어떻게 작동하나
기존 데이터 분포를 통계적으로 본떠 샘플을 만들거나, 시뮬레이터로 장면을 만든 뒤 데이터셋을 뽑아내거나, 생성 모델로 새 예시를 찍어 내는 식으로 만들어. 실무에선 희귀 오류 사례를 늘리거나 개인정보가 섞인 원본을 바로 못 쓸 때 임시 데이터셋을 채우는 데 많이 써.
왜 중요한가
실데이터는 비싸고 느리게 모이고, 드문 사례는 더더욱 부족해서 모델을 바로 굴리기 어려울 때가 많아. Synthetic Data는 그 공백을 메워서 초기 실험 속도를 올리고 테스트 범위를 넓히는 데 도움돼.
주의해서 볼 점
합성 데이터가 현실 분포를 충분히 못 닮으면 모델이 너무 깨끗한 세상만 배운 채로 배포될 수 있어. 그래서 원본 데이터를 완전히 대체하는 만능 해법으로 보기보다, 실데이터 검증을 보조하는 장치로 보는 쪽이 안전해.
관련 용어
- Benchmark는 모델을 어떤 기준으로 재는지 정한 테스트 셋이나 절차야. Synthetic Data를 벤치마크에 넣을 땐 실제 사용 상황을 얼마나 닮았는지 따로 확인해야 해.
- 데이터 증강은 기존 데이터를 조금 변형해서 양을 늘리는 쪽이고, Synthetic Data는 새 샘플 자체를 더 적극적으로 만들어 내는 쪽이야. 둘은 같이 쓰이기도 하지만 같은 말은 아니야.