데이터셋 상세
AI 허브
미디어젠 - 감성 대화 말뭉치
크라우드 소싱 수행으로 일반인 1,500명을 대상으로 하여 음성 15,700문장 및 코퍼스 27만 문장 구축 및 세대별 감성 대화 텍스트 구축을 통해 감성 대화 엔진을 개발하여 세대별 감성 대화 서비스 제공
연관 데이터
미디어젠 - 감정이 태깅된 자유대화 (청소년)
공공데이터포털
별도로 개발된 APP을 통해 2 사람이 다양한 주제에 대해 실시간 음성 통화를 하며, 해당 통화 내역을 텍스트로 전사함 각각의 음성은 감정 상태, 감정 유형, 감정 정도, 감정 대상 등으로 세분화된 감정 태깅을 수행함
미디어젠 - 감정이 태깅된 자유대화 (성인)
공공데이터포털
별도로 개발된 APP을 통해 2 사람이 다양한 주제에 대해 실시간 음성 통화를 하며, 해당 통화 내역을 텍스트로 전사함 각각의 음성은 감정 상태, 감정 유형, 감정 정도, 감정 대상 등으로 세분화된 감정 태깅을 수행함
미디어젠 - 한국어 멀티세션 대화
공공데이터포털
시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성 데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)
미디어젠(주) - 일상대화 한국어 멀티세션 데이터
공공데이터포털
- 일상대화 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠(주) - 전문분야(사회과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(사회과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
㈜안드레이아 - 심리상담 데이터
공공데이터포털
우울증, 불안장애, 중독 등 정신질환자를 대상으로 구조화된 심리상담 프로토콜을 활용해 수집된 1,661시간의 음성데이터와 이를 전사한 40만 토큰 이상의 텍스트로 구성된 학습용 데이터셋
심심이㈜ - 공감형 대화
공공데이터포털
- 인간과 같이 공감할 수 있는 능력을 갖고 자연스러운 공감 대화 인터페이스를 위한 인공지능 학습용 대화 데이터 - 한 화자(감정화자)에게는 주어진 ‘감정과 상황에 처해진 것처럼 대화’하라는 임무를, 다른 화자(공감화자)에게는 ‘상대방에게 적절하게 공감’하라는 임무를 부여한 후 생성한 대화 데이터
미디어젠(주) - 전문분야(기술과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(기술과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠(주) - 감성 및 발화 스타일별 음성합성 데이터
공공데이터포털
7가지 대표 감정(기쁨, 슬픔, 분노, 불안, 상처, 당황, 중립)과 5가지 발화스타일, 3가지 발성캐릭터, 12가지 감정X발화스타일 조합으로 분류된 음성데이터 셋으로 50명의 전문 성우를 섭외하여 총 1,067시간의 녹음 데이터 구축
커뮤니케이션북스(주) - 문학작품 낭송․낭독 음성 데이터(시, 소설, 희곡, 시나리오)
공공데이터포털
인간의 감정이 가장 풍부하게 드러난 문학 작품을 성우, 배우와 같은 감정 표현 전문가들이 낭독한 AI 합성용 음성 데이터이다. 시 장르가 131.5시간, 희곡/시나리오 166시간, 소설 159시간으로 총 456.6시간을 구축하였다.