데이터셋 상세
AI 허브
㈜ 트위그팜 - 기술과학 분야 한-영 번역 병렬 말뭉치 데이터
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 기술과학 번역기의 성능 향상을 위한 학습용 데이터
연관 데이터
트위그팜 - 다국어 번역 품질 평가 데이터
공공데이터포털
- 다국어 언어쌍에 대한 양방향 병렬 번역 말뭉치 데이터 - 기계 번역 품질 예측 활용을 위한 번역 품질 평가 라벨링 데이터
국립국어원 - 온라인 게시 자료 말뭉치 2022
공공데이터포털
(버전 1.0) 게시판, 누리 소통망 등에서 수집한 언어 자료로 구성한 말뭉치입니다.
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
공공데이터포털
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수 완료
커뮤니케이션북스(주) - 감성 및 발화스타일 동시 고려 음성합성 데이터
공공데이터포털
다양한 감성과 발화스타일을 동시 고려하는 인공지능 기술 개발을 위한 학습용 음성합성 데이터
국립국어원 - 어휘 의미 분석 말뭉치 2020
공공데이터포털
(버전 2.0) 다의어를 구별하여 <우리말샘>의 의미 번호를 부착한 말뭉치입니다.
국립국어원 - 일상 대화 말뭉치 2020
공공데이터포털
(버전 1.4) 특정 주제 또는 제시 자료로 자유롭게 대화를 나눈 일상 대화 말뭉치입니다.
국립국어원 - 한국어-우즈베크어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 우즈베크어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 구어 말뭉치
공공데이터포털
(버전 1.2) 방송, 강연 등의 공적 구어 자료, 드라마 대본 등의 준구어 자료로 구성된 말뭉치입니다.
국립국어원 - 지역어 말뭉치 2021
공공데이터포털
(버전 1.0) 2021년 구술 발화 조사결과(10개 지점 각 3세대 제보자 조사)를 정리한 원시 말뭉치