데이터셋 상세
AI 허브
에스에스엘 - 한국어 다중 이벤트 추출 데이터
- 텍스트 내 다중 이벤트 추출 기반의 이해 기술 개발을 위한 학습용 데이터 구축
데이터 정보
연관 데이터
㈜와이즈넛 - 요약문 및 레포트 생성 데이터
공공데이터포털
다양한 한국어 원문 데이터로부터 정제된 추출 및 생성 요약문을 도출하고 검증한 한국어 문서요약 AI 데이터셋으로, 추출요약을 포함하여 본문에서 중요한 문장을 하나의 새로운 요약문으로 창조하는 생성요약(Abstractive Summarization)을 위한 데이터 세트를 구축하고 이를 실제 모델에 학습
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터
공공데이터포털
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
㈜나라지식정보 - 일반상식 문장 생성 데이터
공공데이터포털
■ 문장을 자동으로 생성하고 상황에 맞는 대답을 할 수 있는 지능형 어플리케이션 개발을 위한 문장 생성 학습용 데이터셋 ■ ‘한국어 일반 상식 문장 데이터 구축’ 과제 중 15-1 데이터(일반상식 문장 교정 데이터)에서 추출한 개념 정보(동사·명사, 체언, 용언)를 재구성하여 일반 상식에 부합하는 자연스러운 한국어 문장을 생성한 텍스트 데이터셋
㈜와이즈넛 - SNS 데이터 고도화
공공데이터포털
2020년 한국어 SNS데이터와 2021년 주제별 텍스트 일상 대화 데이터의 유형을 최소 1개에서 최대 3개로 멀티라벨링 하여 한국어 일상대화 AI 모델의 품질 향상을 위한 학습용 데이터 셋 제공
솔트룩스이노베이션 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
㈜코리아리서치인터내셔널 - 서베이 문항 생성 데이터
공공데이터포털
전문 리서처가 구축한, 저작권이 확보된, 적합성이 검증된 키워드 기반의 설문 구성으로 비리서치 전문가도 편리하게 활용 가능한 한국어용 설문 생성 인공지능 학습용 데이터셋
아키아카 - 라이브 스트리밍 영상 중국어 통번역 데이터
공공데이터포털
- 한국 콘텐츠 산업의 해외성장세에 발맞춰, 자연어를 기반으로 하는, 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공지능 학습데이터 구축 및 모델 개발
㈜스피치랩스 - 한국어 대학 강의 데이터
공공데이터포털
한국어 강의 영상 및 음성을 인식하여 자막 생성 등의 서비스를 위한 인공지능 학습용 한국어 대학 강의 분야 음성데이터 구축
미디어젠(주) - 전문분야(사회과학) 한국어 멀티세션 데이터
공공데이터포털
- 전문분야(사회과학) 맥락에서 자연스러운 연속 대화가 가능한 AI를 구축하기 위한 학습용 데이터 - 멀티세션 대화 및 발화에 활용한 문서 정보, 검색어 등이 태깅된 대화 데이터
솔트룩스이노베이션 - 다국어 구어체 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공