데이터셋 상세
AI 허브
미디어젠 - 감정이 태깅된 자유대화 (성인)
별도로 개발된 APP을 통해 2 사람이 다양한 주제에 대해 실시간 음성 통화를 하며, 해당 통화 내역을 텍스트로 전사함 각각의 음성은 감정 상태, 감정 유형, 감정 정도, 감정 대상 등으로 세분화된 감정 태깅을 수행함
연관 데이터
미디어젠 - 감정이 태깅된 자유대화 (청소년)
공공데이터포털
별도로 개발된 APP을 통해 2 사람이 다양한 주제에 대해 실시간 음성 통화를 하며, 해당 통화 내역을 텍스트로 전사함 각각의 음성은 감정 상태, 감정 유형, 감정 정도, 감정 대상 등으로 세분화된 감정 태깅을 수행함
미디어젠 - 감성 대화 말뭉치
공공데이터포털
크라우드 소싱 수행으로 일반인 1,500명을 대상으로 하여 음성 15,700문장 및 코퍼스 27만 문장 구축 및 세대별 감성 대화 텍스트 구축을 통해 감성 대화 엔진을 개발하여 세대별 감성 대화 서비스 제공
미디어젠(주) - 일상대화 한국어 멀티세션 데이터
공공데이터포털
- 일상대화 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠 - 한국어 멀티세션 대화
공공데이터포털
시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성 데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)
㈜ 아크릴 - 한국어 감정 정보가 포함된 연속적 대화 데이터셋
공공데이터포털
웹 크롤링 등의 방법으로 대화를 수집하고, 적정 길이와 turn 수 및 주제를 가진 대화를 선정하였으며 감정 레이블링 수행 챗봇이 말하기 부적절한 용어(지나치게 전문적인 용어, 비속어 등)을 가능한 범위에서 필터링 하였음
미디어젠(주) - 전문분야(사회과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(사회과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠(주) - 전문분야(기술과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(기술과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
심심이㈜ - 공감형 대화
공공데이터포털
- 인간과 같이 공감할 수 있는 능력을 갖고 자연스러운 공감 대화 인터페이스를 위한 인공지능 학습용 대화 데이터 - 한 화자(감정화자)에게는 주어진 ‘감정과 상황에 처해진 것처럼 대화’하라는 임무를, 다른 화자(공감화자)에게는 ‘상대방에게 적절하게 공감’하라는 임무를 부여한 후 생성한 대화 데이터
솔루게이트 - 한국인 대화음성
공공데이터포털
한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI개발용 대화 한국어 음성 데이터
미디어젠(주) - 감성 및 발화 스타일별 음성합성 데이터
공공데이터포털
7가지 대표 감정(기쁨, 슬픔, 분노, 불안, 상처, 당황, 중립)과 5가지 발화스타일, 3가지 발성캐릭터, 12가지 감정X발화스타일 조합으로 분류된 음성데이터 셋으로 50명의 전문 성우를 섭외하여 총 1,067시간의 녹음 데이터 구축