데이터셋 상세
AI 허브
㈜ 아크릴 - 한국어 감정 정보가 포함된 연속적 대화 데이터셋
웹 크롤링 등의 방법으로 대화를 수집하고, 적정 길이와 turn 수 및 주제를 가진 대화를 선정하였으며 감정 레이블링 수행 챗봇이 말하기 부적절한 용어(지나치게 전문적인 용어, 비속어 등)을 가능한 범위에서 필터링 하였음
데이터 정보
연관 데이터
㈜ 아크릴 - 한국어 감정 정보가 포함된 단발성 대화 데이터셋
공공데이터포털
SNS 글 및 온라인 댓글에 대한 웹 크롤링을 실시하여 문장을 선정함 문장 단위 작업을 수행할 수 있도록 문장 분리 작업을 거침 7개 감정(기쁨, 슬픔, 놀람, 분노, 공포, 혐오, 중립) 레이블링 수행
㈜ 아크릴 - 감정 분류용 데이터셋
공공데이터포털
감정 유추가 가능한 대화 데이터를 사람이 연기하여 결과를 저장하고, 동시에 해당 데이터의 감정 상태와 감정 주체 부여 연기 지망생/연기 전문가 100명 대상, 7가지 감정에 대해 1인당 약 100번씩 발화 및 연기 수행, 총 10,351개 영상 구축
셀바스에이아이 - 웰니스 대화 스크립트 데이터셋
공공데이터포털
강남 세브란스에서 전달받은 상담데이터 1만 6천건에서 초진이고 환자 본인이 직접 내원한 경우인 4200건 추출 추출된 상담 데이터를 기준으로 문장별 분리 및 대화 의도 분류 분류별로 유저-챗봇 대화스크립트 생성
커뮤니케이션북스(주) - 감성 및 발화스타일 동시 고려 음성합성 데이터
공공데이터포털
다양한 감성과 발화스타일을 동시 고려하는 인공지능 기술 개발을 위한 학습용 음성합성 데이터
솔트룩스 - 한국어 방언 발화(전라도)
공공데이터포털
방언(전라도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
공공데이터포털
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수 완료
연세대학교 교수 - 인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋
공공데이터포털
네이버 뉴스 기사에 등록된 댓글들과 한국어 트위터 사용자의 트윗들을 수집 비속/비윤리적 표현의 빈도수가 많은 특정 온라인 커뮤니티의 댓글들을 수집하여 구축
㈜ 아크릴 - 감정 음성합성 데이터셋
공공데이터포털
30대 여성 성우 1인, 7가지 감정에 대해서 각각 3,000개 발화에 대한 음성 녹음을 수행하였음. 총 21,000개 음성 파일 구축
솔트룩스 - 한국어 방언 발화(제주도)
공공데이터포털
방언(제주도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터