데이터셋 상세
AI 허브
서강대학교 자연어처리 연구실 - 한국어 어체 변환 데이터셋
한국어 대화 시스템에서 활용도가 가장 높은 해요체, 합쇼체, 반말체를 대상으로 한국어 문장을 제작, 수집 체계를 마련하고 관련 정보를 레이블링 한국어 문법에 대한 지식을 보유하고 있는 대학원생이 문장을 분석하고 어체 문장을 작성하는 방식으로 수집 의료 도메인 대화 1,940 문장, 일상, 오피스 대화 672 문장을 수집 역-변환 (Back-transfer) 방법으로 어체 변환을 실험을 수행하는 방식으로 데이터 정확성 검증
데이터 정보
연관 데이터
한국전자통신연구원 한국어 언어분석 통합 말뭉치
공공데이터포털
엑소브레인 과제를 수행하면서 구축한 언어처리 학습데이터로 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치이 포함되어 있습니다.
한국남부발전(주) 발전용어집
공공데이터포털
한국남부발전(주)_발전용어집에 대한 데이터로 발전용어(한글명, 한문명, 영문명), 용어설명 항목을 제공합니다.
문화체육관광부 국립국어원 한국수어사전 한국어대응표현정보
공공데이터포털
국립국어원의 한국수어사전에서 추출된 수어 편찬 목록의 한국어 대응표현 정보(수형설명, 한국어대응표현, 결합정보, 대/중분류 등)입니다.
한국과학기술정보연구원 과학기술데이터 용어 정보
공공데이터포털
과학기술데이터(저널, 컨퍼런스 등의 논문)에서 추출한 한국어 및 한-영 동의어, 대역어에 대한 정보입니다. 해당 데이터가 보유한 컬럼은 다음과 같습니다. 컬럼명: 분류, 아이디, 용어, 출처, 용어변환, 값, 서브값, 언어
문화체육관광부 국립국어원 한국수어사전 표제어 및 용례
공공데이터포털
한국수어사전은 농인과 청인이 한국수어 단어에 대한 한국어 정보를 쉽게 찾아볼 수 있도록 기존의 한국수어 웹사전과 모바일 앱 사전 등을 통합하여 새롭게 정비한 사전입니다. (url: https://sldict.korean.go.kr/front/main/main.do)데이터의 경우 한국수어 표제어의 번호와 그에 따른 대응표현, 용례를 가지고 있는 표제어의 한국어 대응표현과 용례의 개수가 함께 제공됩니다.
문화체육관광부 국립국어원 한국어 학습자 말뭉치 나눔터
공공데이터포털
한국어 학습자 말뭉치란 제2 언어 또는 외국어로 한국어를 배우는 학습자들이 산출한 텍스트 및 담화 자료를 수집하여 컴퓨터가 읽을 수 있는 형태로 전산화한 언어 자료
한국외국어대학교 - 발화유형(문어, 구어, 채팅)별 기계번역 병렬 말뭉치
공공데이터포털
- 한국어 계열 기계번역의 언어별 성능, 어투, 도메인 등, 다양한 요소를 평가할 수 있도록 벤치마크 데이터셋 구축
문화체육관광부 국립국어원 한글 점자 규정 해설서
공공데이터포털
2017 한국 점자 규정 해설-한글점자규정해설서
한국외국어대학교 - 한영 혼합 인식 데이터
공공데이터포털
대화 중 자연스럽게 구사되는 영문 단어(외래어 및 외국어) 및 관용적 표현이 포함된 문장과 스크립트를 통해 AI 학습용 데이터 구축
NHN다이퀘스트 - 자유대화 음성(일반남여)
공공데이터포털
한국인 중 일반남녀의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 한국어 음성 데이터