데이터셋 상세
AI 허브
㈜팀벨 - 한국어 텍스트-비디오-사운드 데이터
- 텍스트-비디오-사운드 페어를 통해 시각-언어 분석 및 이를 활용한 서비스 제공을 위한 멀티모달 데이터 - 텍스트 기반의 검색을 통해 비디오 및 사운드 검색이 가능한 학습용 데이터 - 한국어 텍스트-비디오-사운드 쌍 데이터 50만 건 이상 구축
연관 데이터
㈜마인즈랩 - 음성 및 모션 합성 데이터
공공데이터포털
한국어 발화 기반 동작 생성 기술을 위한 음성 모션이 동기화된 멀티모달 데이터셋 4,070시간 구축 및 공개
㈜스피치랩스 - 한국어 대학 강의 데이터
공공데이터포털
한국어 강의 영상 및 음성을 인식하여 자막 생성 등의 서비스를 위한 인공지능 학습용 한국어 대학 강의 분야 음성데이터 구축
㈜솔트룩스 - 방송콘텐츠 대화체 음성인식 데이터
공공데이터포털
방송콘텐츠 상에서 한국인 대화체의 음성인식(STT) 기술 및 문맥을 이해하는 언어처리 기술 개발을 위한 인공지능 학습용 데이터로서 8개 카테고리, 대화체 음성인식, 문장별 의도 인공지능 학습용으로 정제된 7,000시간의 음성 데이터
미디어젠(주) - 일상대화 한국어 멀티세션 데이터
공공데이터포털
- 일상대화 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
솔루게이트 - 한국인 대화음성
공공데이터포털
한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI개발용 대화 한국어 음성 데이터
바이브컴퍼니 - 한국어 대화 요약
공공데이터포털
일상 대화, 토론 등 다양한 유형의 한국어 대화 원문 텍스트 데이터를 기반으로 한국어 대화 요약 AI 기술 개발을 위한 한국어 대화 요약 텍스트 데이터
NHN다이퀘스트 - 한국인 외래어 발화
공공데이터포털
통역과 번역의 과정 없이 바로 한국어 음성 또는 텍스트 데이터에 맵핑할 수 있는 외래어 발화 음성 데이터
테스트웍스 - 수어 영상
공공데이터포털
지숫자, 지문자의 데이터 영상 생성을 통해 길찾기, 교통, 주소 등과 관련된 한국수어 인식 인공지능 기술 및 서비스 개발에 활용 가능한 총 536,000개의 영상 데이터 제공
아키아카 - 라이브 스트리밍 영상 중국어 통번역 데이터
공공데이터포털
- 한국 콘텐츠 산업의 해외성장세에 발맞춰, 자연어를 기반으로 하는, 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공지능 학습데이터 구축 및 모델 개발
미디어젠(주) - 전문분야(기술과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(기술과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터