데이터셋 상세
AI 허브
한국과학기술정보연구원 - 한국어 대화
소상공인 및 공공 민원 10개 분야에 대한 50만 건 이상의 대화를 제공하는 자연어 데이터 제공
데이터 정보
연관 데이터
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
솔트룩스 - 한국어 방언 발화(충청도)
공공데이터포털
방언(충청도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
솔트룩스이노베이션 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
솔트룩스 - 한국어 방언 발화(경상도)
공공데이터포털
방언(경상도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
솔트룩스 - 한국어 방언 발화(제주도)
공공데이터포털
방언(제주도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
바이브컴퍼니 - 한국어 대화 요약
공공데이터포털
일상 대화, 토론 등 다양한 유형의 한국어 대화 원문 텍스트 데이터를 기반으로 한국어 대화 요약 AI 기술 개발을 위한 한국어 대화 요약 텍스트 데이터
솔트룩스 - 한국어 방언 발화(전라도)
공공데이터포털
방언(전라도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터
공공데이터포털
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
포티투마루 - 한국어 SNS
공공데이터포털
한국어 구어체 텍스트 기반의 정보검색, 대화분석, 질의응답, 명령어 이해, 언어모델 학습 등의 자연어처리 AI 기술 개발을 위한 한국인의 일상대화 SNS 데이터 구축