데이터셋 상세
AI 허브
미디어젠(주) - 일상대화 한국어 멀티세션 데이터
- 일상대화 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
연관 데이터
미디어젠(주) - 전문분야(사회과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(사회과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠(주) - 전문분야(기술과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(기술과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠 - 한국어 멀티세션 대화
공공데이터포털
시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성 데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)
솔루게이트 - 한국인 대화음성
공공데이터포털
한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI개발용 대화 한국어 음성 데이터
한국외국어대학교 - 한영 혼합 인식 데이터
공공데이터포털
대화 중 자연스럽게 구사되는 영문 단어(외래어 및 외국어) 및 관용적 표현이 포함된 문장과 스크립트를 통해 AI 학습용 데이터 구축
㈜코리아리서치인터내셔널 - 인터뷰 진행 멀티턴 데이터
공공데이터포털
멀티턴 형식의 인터뷰 데이터로 다양한 상황과 목적에 맞는 인터뷰 멀티턴 질의 생성을 위한 인공지능 학습용 데이터셋
㈜와이즈넛 - SNS 데이터 고도화
공공데이터포털
2020년 한국어 SNS데이터와 2021년 주제별 텍스트 일상 대화 데이터의 유형을 최소 1개에서 최대 3개로 멀티라벨링 하여 한국어 일상대화 AI 모델의 품질 향상을 위한 학습용 데이터 셋 제공
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
바이브컴퍼니 - 한국어 대화 요약
공공데이터포털
일상 대화, 토론 등 다양한 유형의 한국어 대화 원문 텍스트 데이터를 기반으로 한국어 대화 요약 AI 기술 개발을 위한 한국어 대화 요약 텍스트 데이터
㈜팀벨 - 한국어 텍스트-비디오-사운드 데이터
공공데이터포털
- 텍스트-비디오-사운드 페어를 통해 시각-언어 분석 및 이를 활용한 서비스 제공을 위한 멀티모달 데이터 - 텍스트 기반의 검색을 통해 비디오 및 사운드 검색이 가능한 학습용 데이터 - 한국어 텍스트-비디오-사운드 쌍 데이터 50만 건 이상 구축