데이터셋 상세
AI 허브
한국어 생성 기반 상식추론 데이터셋
사전에 구축된 AI-HUB의 대화 요약 및 이미지 캡션 텍스트 데이터로부터 Tagger 및 신경망 네트워크를 통해 반자동화 구축 방식을 적용하여 형태소를 추출. 추출한 형태소는 하나의 개념 집합을구성하며, 개념 집합의 내용을 바탕으로 일반 상식에 부합하는 짧은 문장을 재구성하도록 하는 자연어 생성 데이터.
연관 데이터
국립국어원 - 형태 분석 말뭉치
공공데이터포털
(버전 1.1) 어절을 분석하여 형태 표지를 부착한 말뭉치입니다.
국립국어원 - 개체명 사전 2022
공공데이터포털
(버전 1.0) 개체명 및 개체 연결 정보가 부착된 말뭉치에서 개체 표현, 개체 유형, 지식 베이스 연결 정보를 추출하여 구축한 자료입니다.
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
국립국어원 - 그래프 기반 문장 생성 말뭉치 2022
공공데이터포털
(버전 1.0) 그래프의 내용을 설명하는 기준 문장과 기준 문장을 환언한 유사 문장으로 구성된 말뭉치입니다.
국립국어원 - 구문 분석 말뭉치 2024
공공데이터포털
(버전 1.0) 문장의 구문 구조를 분석해 의존 관계 표지를 부착한 말뭉치입니다.
국립국어원 - 맞춤법 교정 말뭉치 2021
공공데이터포털
(버전 1.0) 온라인에서 나타나는 언어 표현을 한국어 처리 도구가 분석할 수 있는 수준으로 교정한 말뭉치입니다.
국립국어원 - 의미역 기술 모형
공공데이터포털
(버전 1.0) 술어의 필수 의미역(우리말샘과 세종 전자사전 의미 번호 부착)을 기술한 모형입니다.
국립국어원 - 한국어-힌디어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 힌디어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-힌디어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 힌디어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 묵자-점자 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어 데이터(신문 기사, 온라인 게시 자료)에서 한글, 로마자, 숫자, 기호의 조합 조건을 만족하는 문장을 추출하고 점역, 교정하여 구축한 병렬 말뭉치입니다.