데이터셋 상세
모두의 말뭉치
국립국어원 - 유사 문장 말뭉치
(버전 1.0) 컴퓨터가 만든 유사 문장과 사람이 작성한 유사 문장으로 구성된 말뭉치입니다.
데이터 정보
연관 데이터
국립국어원 - 지역어 말뭉치 2021
공공데이터포털
(버전 1.0) 2021년 구술 발화 조사결과(10개 지점 각 3세대 제보자 조사)를 정리한 원시 말뭉치
국립국어원 - 한국수어 원시 말뭉치 2025
공공데이터포털
(버전 1.0) 2명의 농인이 수어로 나눈 영상으로 구성된 수어 원시 말뭉치입니다.
국립국어원 - 한국어-베트남어 병렬 말뭉치 2024
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 베트남어로 번역하여 구성한 병렬 말뭉치입니다.
한국외국어대학교 - 한영 혼합 인식 데이터
공공데이터포털
대화 중 자연스럽게 구사되는 영문 단어(외래어 및 외국어) 및 관용적 표현이 포함된 문장과 스크립트를 통해 AI 학습용 데이터 구축
국립경국대학교 - 옛한글 문자인식(OCR) 인공지능 학습용 데이터
공공데이터포털
조선시대(15세기~20세기 초) 고문헌 및 고문서의 옛한글 이미지로부터 개별 글자들을 추출하기 위한 인공지능 학습데이터
㈜나라지식정보 - 일반상식 문장 생성 평가 데이터
공공데이터포털
■ 기계가 생성한 문장과 인간이 생성한 문장을 다섯 가지 기준에 따라 평가함으로써 향후 AI가 생성한 문장을 AI가 검증할 수 있도록 하는 데이 ■ 한국어 일반상식 문장 평가 과제 중 세 번째 데이터로서 두 번째 데이터(제2과제 데이터)에서 제작한 문장에 대해 사람이 만든 문장과 기계가 생성한 문장을 네 가지 속성*에 따라 3점 리커트 척도로 채점한 점수를 기술 *채점 속성 : 문법성, 사실성, 유창성, 다양성
국립국어원 - 국어 역사 자료 말뭉치 2024
공공데이터포털
(버전 1.0) 17~19세기 쓰여진 언간(한글편지) 자료와 20세기 초 신소설, 판소리계 사설, 사전류 등 32종의 원시 말뭉치입니다.
㈜비네아 - 한국어 지식기반 관계 데이터
공공데이터포털
문장 내 등장하는 개체(Named Entity) 사이의 관계(Relation) 및 그 속성을 라벨링하여, 문맥 속에서 개체 간 관계 등 다양한 분야의 의미 기반 관계 분석이 가능한 인공지능 학습용 데이터셋을 구축함
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
㈜알토비전 - 추상 요약 사실성 검증 데이터
공공데이터포털
요약문의 오류를 검출하고 수정하여 궁극적으로는 AI의 텍스트 자동 요약 성능을 향상하기 위한 인공지능 학습용 데이터. AI 요약문과 사람 요약문에 포함된 오류를 대분류(문장 생성 오류, 요약문의 내용 오류), 소분류(오류 유형 6가지)로 구분하여 라벨링함.