데이터셋 상세
AI 허브
테스트웍스 - 수어 영상
지숫자, 지문자의 데이터 영상 생성을 통해 길찾기, 교통, 주소 등과 관련된 한국수어 인식 인공지능 기술 및 서비스 개발에 활용 가능한 총 536,000개의 영상 데이터 제공
연관 데이터
㈜스피치랩스 - 한국어 대학 강의 데이터
공공데이터포털
한국어 강의 영상 및 음성을 인식하여 자막 생성 등의 서비스를 위한 인공지능 학습용 한국어 대학 강의 분야 음성데이터 구축
㈜ 씨에스리 - 인공지능 학습을 위한 외국인 한국어 발화 음성 데이터
공공데이터포털
외국어가 모국어인 화자의 한국어 음성 데이터로, 주어진 대본 내용을 읽은 음성과 주어진 질문에 자유롭게 답변한 음성과 각 음성에 대한 전사 결과를 포함한 메타데이터로 구성
한국외국어대학교 - 발화유형(문어, 구어, 채팅)별 기계번역 병렬 말뭉치
공공데이터포털
- 한국어 계열 기계번역의 언어별 성능, 어투, 도메인 등, 다양한 요소를 평가할 수 있도록 벤치마크 데이터셋 구축
㈜솔트룩스 - 방송콘텐츠 대화체 음성인식 데이터
공공데이터포털
방송콘텐츠 상에서 한국인 대화체의 음성인식(STT) 기술 및 문맥을 이해하는 언어처리 기술 개발을 위한 인공지능 학습용 데이터로서 8개 카테고리, 대화체 음성인식, 문장별 의도 인공지능 학습용으로 정제된 7,000시간의 음성 데이터
㈜팀벨 - 한국어 텍스트-비디오-사운드 데이터
공공데이터포털
- 텍스트-비디오-사운드 페어를 통해 시각-언어 분석 및 이를 활용한 서비스 제공을 위한 멀티모달 데이터 - 텍스트 기반의 검색을 통해 비디오 및 사운드 검색이 가능한 학습용 데이터 - 한국어 텍스트-비디오-사운드 쌍 데이터 50만 건 이상 구축
㈜테스트웍스 - 재난 안전 정보 전달을 위한 수어영상 데이터
공공데이터포털
수어 번역 데이터셋은 한국어를 한국수어로 변환하기 위한 AI 학습용 데이터로써, 한국어 문장과 매칭되는 한국수어 문법이 반영된 문장, 형태소, 동작에 대한 시간 정보 그리고 얼굴 표정 등과 같은 비수지 정보들을 포함하는 말뭉치 셋임
비디 - 명령어 음성(소아,유아)
공공데이터포털
한국인 소아남여 명령어를 인식하여 문자로 바꾸어 주는 AI기술을 위한 음성 데이터
아키아카 - 라이브 스트리밍 영상 중국어 통번역 데이터
공공데이터포털
- 한국 콘텐츠 산업의 해외성장세에 발맞춰, 자연어를 기반으로 하는, 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공지능 학습데이터 구축 및 모델 개발
KDX 한국데이터거래소 - 대용량 동영상 콘텐츠
공공데이터포털
인공지능 기술 개발을 위해 객체/행동/상황에 대한 2,931가지의 정밀하고 정제된 500시간의 학습용 데이터 구축 및 영상에 대해 연속적인 바운딩박스를 그릴 수 있는 데이터 가공 도구 제공
NHN다이퀘스트 - 한국인 외래어 발화
공공데이터포털
통역과 번역의 과정 없이 바로 한국어 음성 또는 텍스트 데이터에 맵핑할 수 있는 외래어 발화 음성 데이터