데이터셋 상세
AI 허브
트위그팜 - 다국어 번역 품질 평가 데이터
- 다국어 언어쌍에 대한 양방향 병렬 번역 말뭉치 데이터 - 기계 번역 품질 예측 활용을 위한 번역 품질 평가 라벨링 데이터
데이터 정보
연관 데이터
한국전자통신연구원 한국어 언어분석 통합 말뭉치
공공데이터포털
엑소브레인 과제를 수행하면서 구축한 언어처리 학습데이터로 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치이 포함되어 있습니다.
국립국어원 - 온라인 게시 자료 말뭉치 2022
공공데이터포털
(버전 1.0) 게시판, 누리 소통망 등에서 수집한 언어 자료로 구성한 말뭉치입니다.
국립국어원 - 맞춤법 교정 말뭉치 2021
공공데이터포털
(버전 1.0) 온라인에서 나타나는 언어 표현을 한국어 처리 도구가 분석할 수 있는 수준으로 교정한 말뭉치입니다.
문화체육관광부 국립국어원 외래어표기법
공공데이터포털
국립국어원의 외래어표기법 정보를 외부 개발자 및 사용자가 이를 활용 할 수 있도록 전달하는 API 서비스입니다. 한글 표기, 원어 표기, 국명/언어명 등 다양한 정보를 제공합니다.
국립국어원 - 대화 맥락 추론 말뭉치 2024
공공데이터포털
(버전 1.0) 대화 맥락이나 상식, 세계 지식 등에 의거하여 5가지 유형별 '정규적/적대적' 추론문을 작성하고, 추론문별 일반 언어 사용자의 평가 결과를 입력한 말뭉치입니다.
국립국어원 - 문법성 판단 말뭉치
공공데이터포털
(버전 1.1) 한국어 예문 문법성(수용성)을 언어 사용자가 평가한 정보가 포함된 말뭉치입니다.
국립국어원 - 어휘 의미 분석 말뭉치 2020
공공데이터포털
(버전 2.0) 다의어를 구별하여 <우리말샘>의 의미 번호를 부착한 말뭉치입니다.
고려대학교 산학협력단 - 한국어-영어 합성 기계번역 품질 예측 데이터셋
공공데이터포털
한국어-영어 합성 기계번역 품질 예측 데이터(A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation, QUAK)는 한국어 문장과 영어 기계번역 문장을 참조하여 각 문장들에 대한 기계번역 결과 품질을 토큰별 OK/BAD 태그로 예측하는 기계번역 품질 예측 모델 학습 데이터셋이다. 해당 데이터로 학습한 기계번역 품질 예측 모델은 정답 문장이 없이도 번역의 품질을 예측할 수 있으므로 정답 문장이 없는 real-world problems에 적용될 수 있다. 기계번역 결과 중 어떠한 토큰(어절)이 잘못 번역되었는지를 단어별로 OK/BAD 태그하며, 얼라인된 소스토큰에 대해서도 태그를 나타내므로 번역 언어를 모르는 사용자들도 어떤 단어의 번역이 잘못되었는지를 알 수 있다.
국립국어원 - 한국어-필리핀 타갈로그어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 필리핀 타갈로그어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-필리핀 타갈로그어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 필리핀-타갈로그어로 변역하여 구성한 병렬 말뭉치입니다.