데이터셋 상세
AI 허브
한국전자기술연구원 - 수어 데이터셋
적용 도메인에 맞추어 선별된 단어 419개에 대한 수어 동영상 영상화질 : Full HD(1920×1080) 이상의 화질 촬영 카메라 수 : 3대 수어 취득 대상자 수 : 20 명
데이터 정보
연관 데이터
한국과학기술원 (KAIST 인공지능연구소) - 카이스트 오디오북 데이터셋
공공데이터포털
소설, 동화, 자기계발, 뉴스, 어학 장르에 어울리는 음성을 합성하기 위해 활용.
한국전자기술연구원 - 한국어 대화 데이터셋
공공데이터포털
주제에 맞는 동영상 (해외 포함)을 참조하여 한국어 및 황에 적절하도록 각색하여 구축 응급상황 데이터: 748개의 멀티턴 대화셋, 단발성으로 4,975 문장 존재, 대화셋 당 3 ~ 12개의 대화 턴으로 구성 오피스 데이터: 10,202개의 멀티턴 대화셋, 대화쌍으로 46,414 셋이 존재, 대화셋 당 1~31개의 대화 턴으로 구성
㈜ 아크릴 - 감정 음성합성 데이터셋
공공데이터포털
30대 여성 성우 1인, 7가지 감정에 대해서 각각 3,000개 발화에 대한 음성 녹음을 수행하였음. 총 21,000개 음성 파일 구축
(주)에버트란 - 방송콘텐츠 한국어-영어 통번역 음성 데이터
공공데이터포털
- 인공지능 학습용 다국어 방송콘텐츠 번역 말뭉치 구축 방송 콘텐츠 분야의 영어, 스페인어, 러시아어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 통·번역 데이터 - 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용 한-영어/스페인어,러시아어 통·번역 음성 및 텍스트 pair 데이터
비디 - 명령어 음성(소아,유아)
공공데이터포털
한국인 소아남여 명령어를 인식하여 문자로 바꾸어 주는 AI기술을 위한 음성 데이터
㈜디엠티랩스 - 방송콘텐츠 한국어-유럽어 번역 말뭉치
공공데이터포털
- 방송 콘텐츠 분야의 유럽어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 유럽어 통·번역 말뭉치 데이터 - 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용 한-유럽어 통·번역 음성 및 텍스트 pair 데이터
국립국어원 - 한국수어 주석 말뭉치 2024
공공데이터포털
(버전 1.0) 2명의 농인이 수어로 대화를 나눈 수어 영상을 한국어로 번역하고 수어 단어를 분절하여 기본 주석을 단 다중 번역 주석 말뭉치입니다.
한국전자통신연구원 다국어 5종의 음성과 영어대역문장 정보
공공데이터포털
베트남어, 태국어, 인도네시아어, 말레이어, 아랍어 음성 40만 발화
(주)에버트란 - 방송콘텐츠 한국어-영어 번역 말뭉치
공공데이터포털
- 인공지능 학습용 다국어 방송콘텐츠 번역 말뭉치 구축 방송 콘텐츠 분야의 영어, 스페인어, 러시아어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 통·번역 데이터 - 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용 한-영어/스페인어,러시아어 통·번역 음성 및 텍스트 pair 데이터
㈜ 아크릴 - 감정 분류용 데이터셋
공공데이터포털
감정 유추가 가능한 대화 데이터를 사람이 연기하여 결과를 저장하고, 동시에 해당 데이터의 감정 상태와 감정 주체 부여 연기 지망생/연기 전문가 100명 대상, 7가지 감정에 대해 1인당 약 100번씩 발화 및 연기 수행, 총 10,351개 영상 구축