AI 허브
고려대학교 산학협력단 - 한국어-영어 합성 기계번역 품질 예측 데이터셋
한국어-영어 합성 기계번역 품질 예측 데이터(A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation, QUAK)는 한국어 문장과 영어 기계번역 문장을 참조하여 각 문장들에 대한 기계번역 결과 품질을 토큰별 OK/BAD 태그로 예측하는 기계번역 품질 예측 모델 학습 데이터셋이다. 해당 데이터로 학습한 기계번역 품질 예측 모델은 정답 문장이 없이도 번역의 품질을 예측할 수 있으므로 정답 문장이 없는 real-world problems에 적용될 수 있다. 기계번역 결과 중 어떠한 토큰(어절)이 잘못 번역되었는지를 단어별로 OK/BAD 태그하며, 얼라인된 소스토큰에 대해서도 태그를 나타내므로 번역 언어를 모르는 사용자들도 어떤 단어의 번역이 잘못되었는지를 알 수 있다.