데이터셋 상세
공공데이터포털
한국전자통신연구원 음성인식 기술
최신 인공지능 기술에 기반하여 한국어, 영어, 다국어(일본어/중국어/독어/불어/스페인어/러시아어/베트남어/아랍어/태국어)에 대해 고성능의 음성인식 정확률을 제공하는 서비스로서, 사용자가 발성한 녹음된 입력 음성 데이터(단위 파일 또는 버퍼)를 음성인식 서버로 전달하여 문자(텍스트)로 제공합니다. 음성인식 API는 HTTP 기반의 REST API 인터페이스로 JSON 포맷 기반의 입력 및 출력을 지원하며 ETRI에서 제공하는 API Key 인증을 통해 사용할 수 있는 Open API 입니다.
데이터 정보
연관 데이터
한국전자통신연구원 한국어 및 영어 음향모델 훈련용 음성 데이터
공공데이터포털
한국어 및 영어 음성인식 기술을 개발하기 위한 과학기술정보통신부의 R&D인 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 과제에서 산출된 음성 학습데이터로, 음성대화 인터페이스 및 외국어교육을 위한 다양한 음성인식 기술 개발과 관련 데이터입니다.
국립국어원 - 맞춤법 교정 말뭉치 2021
공공데이터포털
(버전 1.0) 온라인에서 나타나는 언어 표현을 한국어 처리 도구가 분석할 수 있는 수준으로 교정한 말뭉치입니다.
솔트룩스 - 한국어 방언 발화(전라도)
공공데이터포털
방언(전라도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
한국전자통신연구원 한국어/다국어 언어음성정보
공공데이터포털
언어음성DB는 자동통/번역, 음성인식/합성, 지식마이닝/검색엔진 개발용으로 인간의 지식을 규칙화하는데 활용되고 있습니다.
솔트룩스 - 한국어 방언 발화(제주도)
공공데이터포털
방언(제주도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
한국전자통신연구원 다국어 5종의 음성과 영어대역문장 정보
공공데이터포털
베트남어, 태국어, 인도네시아어, 말레이어, 아랍어 음성 40만 발화
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
한국전자통신연구원 한국어 언어분석 통합 말뭉치
공공데이터포털
엑소브레인 과제를 수행하면서 구축한 언어처리 학습데이터로 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치이 포함되어 있습니다.
아키아카 - 라이브 스트리밍 영상 중국어 통번역 데이터
공공데이터포털
- 한국 콘텐츠 산업의 해외성장세에 발맞춰, 자연어를 기반으로 하는, 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공지능 학습데이터 구축 및 모델 개발
한국과학기술원 (KAIST 인공지능연구소) - 카이스트 오디오북 데이터셋
공공데이터포털
소설, 동화, 자기계발, 뉴스, 어학 장르에 어울리는 음성을 합성하기 위해 활용.