데이터셋 상세
AI 허브
셀렉트스타㈜ - 초거대 언어모델 신뢰성 벤치마크 데이터
- 한국어 초거대 언어 모델의 신뢰도를 측정하기 위한 평가(벤치마크) 데이터셋
연관 데이터
한국외국어대학교 - 발화유형(문어, 구어, 채팅)별 기계번역 병렬 말뭉치
공공데이터포털
- 한국어 계열 기계번역의 언어별 성능, 어투, 도메인 등, 다양한 요소를 평가할 수 있도록 벤치마크 데이터셋 구축
한국외국어대학교 - 기계번역 품질 검증 데이터
공공데이터포털
- 한국어-영어 양방향에 대하여 기계번역 사후교정 및 어절, 문장, 문서 수준에서 기계번역 품질주석 데이터 구축
한국외국어대학교 - 교육용 한국인의 외국어(영·중·일 제외) 음성 데이터
공공데이터포털
인공지능 외국어 발음 교육 및 평가와 말하기 교육 및 평가를 위한 한국인의 외국어 발화 음성 데이터 및 학습자별 수준 분류·평가, 언어학적 분석이 포함된 메타데이터의 구축
한국외국어대학교 - 교육용 한국인의 영어 음성 데이터
공공데이터포털
인공지능 외국어 발음 교육 및 평가와 말하기 교육 및 평가를 위한 한국인의 외국어 발화 음성 데이터 및 학습자별 수준 분류·평가, 언어학적 분석이 포함된 메타데이터의 구축
한국외국어대학교 - 교육용 한국인의 중국어·일본어 음성 데이터
공공데이터포털
인공지능 외국어 발음 교육 및 평가와 말하기 교육 및 평가를 위한 한국인의 외국어 발화 음성 데이터 및 학습자별 수준 분류·평가, 언어학적 분석이 포함된 메타데이터의 구축
한국외국어대학교 - 자연어 분석 후처리용 과교정 검증 데이터
공공데이터포털
- 한국어 철자 및 문법, 음성인식 후처리용 병렬 말뭉치, 과교정 검증 데이터 구축
NHN다이퀘스트 - 한국인 외래어 발화
공공데이터포털
통역과 번역의 과정 없이 바로 한국어 음성 또는 텍스트 데이터에 맵핑할 수 있는 외래어 발화 음성 데이터
한국전자통신연구원 한국어 언어분석 통합 말뭉치
공공데이터포털
엑소브레인 과제를 수행하면서 구축한 언어처리 학습데이터로 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치이 포함되어 있습니다.
국립국어원 - 맞춤법 교정 말뭉치 2021
공공데이터포털
(버전 1.0) 온라인에서 나타나는 언어 표현을 한국어 처리 도구가 분석할 수 있는 수준으로 교정한 말뭉치입니다.
한국남부발전(주) 발전용어집
공공데이터포털
한국남부발전(주)_발전용어집에 대한 데이터로 발전용어(한글명, 한문명, 영문명), 용어설명 항목을 제공합니다.