데이터셋 상세
AI 허브
미디어젠(주) - 전문분야(사회과학) 한국어 멀티세션 데이터
- 전문분야(사회과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
연관 데이터
미디어젠(주) - 전문분야(기술과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(기술과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠(주) - 일상대화 한국어 멀티세션 데이터
공공데이터포털
- 일상대화 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
미디어젠 - 한국어 멀티세션 대화
공공데이터포털
시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성 데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)
㈜코리아리서치인터내셔널 - 인터뷰 진행 멀티턴 데이터
공공데이터포털
멀티턴 형식의 인터뷰 데이터로 다양한 상황과 목적에 맞는 인터뷰 멀티턴 질의 생성을 위한 인공지능 학습용 데이터셋
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
솔루게이트 - 한국인 대화음성
공공데이터포털
한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI개발용 대화 한국어 음성 데이터
솔트룩스이노베이션 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
㈜와이즈넛 - SNS 데이터 고도화
공공데이터포털
2020년 한국어 SNS데이터와 2021년 주제별 텍스트 일상 대화 데이터의 유형을 최소 1개에서 최대 3개로 멀티라벨링 하여 한국어 일상대화 AI 모델의 품질 향상을 위한 학습용 데이터 셋 제공
한국외국어대학교 - 한영 혼합 인식 데이터
공공데이터포털
대화 중 자연스럽게 구사되는 영문 단어(외래어 및 외국어) 및 관용적 표현이 포함된 문장과 스크립트를 통해 AI 학습용 데이터 구축