데이터셋 상세
AI 허브
고려대학교 산학협력단 - 한국어-영어 합성 기계번역 품질 예측 데이터셋
한국어-영어 합성 기계번역 품질 예측 데이터(A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation, QUAK)는 한국어 문장과 영어 기계번역 문장을 참조하여 각 문장들에 대한 기계번역 결과 품질을 토큰별 OK/BAD 태그로 예측하는 기계번역 품질 예측 모델 학습 데이터셋이다. 해당 데이터로 학습한 기계번역 품질 예측 모델은 정답 문장이 없이도 번역의 품질을 예측할 수 있으므로 정답 문장이 없는 real-world problems에 적용될 수 있다. 기계번역 결과 중 어떠한 토큰(어절)이 잘못 번역되었는지를 단어별로 OK/BAD 태그하며, 얼라인된 소스토큰에 대해서도 태그를 나타내므로 번역 언어를 모르는 사용자들도 어떤 단어의 번역이 잘못되었는지를 알 수 있다.
데이터 정보
연관 데이터
국립국어원 - 맞춤법 교정 말뭉치 2021
공공데이터포털
(버전 1.0) 온라인에서 나타나는 언어 표현을 한국어 처리 도구가 분석할 수 있는 수준으로 교정한 말뭉치입니다.
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
한국전자통신연구원 한국어 언어분석 통합 말뭉치
공공데이터포털
엑소브레인 과제를 수행하면서 구축한 언어처리 학습데이터로 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치이 포함되어 있습니다.
국립국어원 - 문법성 판단 말뭉치
공공데이터포털
(버전 1.1) 한국어 예문 문법성(수용성)을 언어 사용자가 평가한 정보가 포함된 말뭉치입니다.
국립국어원 - 한국어-우즈베크어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 우즈베크어로 번역하여 구성한 병렬 말뭉치입니다.
MBN - 인물사전 DB - 경제인
공공데이터포털
MK / MBN 보도, 교양, 예능 원천 데이터를 활용하여 인공지능 학습용 데이터 구축 할 수 있게 데이터 제공
국립국어원 - 한국어-우즈베크어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 우즈베크어로 번역하여 구성한 병렬 말뭉치입니다.
KDX한국데이터거래소 - 인물별 기사 KDX 데이터
공공데이터포털
매경미디어그룹 MBN 방송 텍스트 데이터를 AI 머신러닝에 활용 할 수 있게 제공 매일경제신문 및 MBN 뉴스를 형태소 분리 가공하여 인물 기준으로 제공 합니다.