데이터셋 상세
AI 허브
성균관대 산학협력단 - 문장 유형(추론, 예측 등) 판단 데이터
ㅇ 문장 유형(추론, 예측 등) 판단 데이터 16만 5천 문장 이상 구축 ㅇ 역사, 사회, 금융, 문화, IT·과학, 생활·건강 카테고리에 해당하는 원시데이터를 수집·정제, 라벨링하여 인공지능 기술 개발에 필요한 학습용 문장 유형 데이터셋 구축 ⋅ 문장 유형 판단 라벨링으로 확실성, 시간성, 긍정/부정 극성 별로 스타일 태그 라벨링 ⋅ 최고의 전문기업들과의 협업을 통해 문장 유형 판단 학습용 데이터를 안정적으로 구축
연관 데이터
㈜윤즈정보개발 - 법률/규정 텍스트 분석 데이터 (고도화)- 상황에 따른 판례 데이터
공공데이터포털
- 학계와 산업계의 법률 자연어처리 및 인공지능 연구와 기술 개발에 필요한 60,000건 이상의 판례 데이터를 라벨링한 학습용 데이터를 구축 - 인공지능 학습에서 판례 데이터의 비율 분포를 실제 비율과 유사하도록 고른 비율로 수집하고 카테고리별 2,000건 이상이 되도록 데이터를 구성 - 활용도가 높은 판례 데이터를 수집하고 판례의 주요 내용을 추출요약하고, 질의응답 셋을 작성, 용어 정보(키워드)를 라벨링하여 인공지능 학습에 도움이 되는 데이터를 구축
㈜나라지식정보 - 일반상식 문장 생성 평가 데이터
공공데이터포털
■ 기계가 생성한 문장과 인간이 생성한 문장을 다섯 가지 기준에 따라 평가함으로써 향후 AI가 생성한 문장을 AI가 검증할 수 있도록 하는 데이 ■ 한국어 일반상식 문장 평가 과제 중 세 번째 데이터로서 두 번째 데이터(제2과제 데이터)에서 제작한 문장에 대해 사람이 만든 문장과 기계가 생성한 문장을 네 가지 속성*에 따라 3점 리커트 척도로 채점한 점수를 기술 *채점 속성 : 문법성, 사실성, 유창성, 다양성
국립국어원 - 대화 맥락 추론 말뭉치 2024
공공데이터포털
(버전 1.0) 대화 맥락이나 상식, 세계 지식 등에 의거하여 5가지 유형별 '정규적/적대적' 추론문을 작성하고, 추론문별 일반 언어 사용자의 평가 결과를 입력한 말뭉치입니다.
국립국어원 - 대화 맥락 추론 말뭉치 2023
공공데이터포털
(버전 1.0) 대화 맥락이나 상식, 세계 지식 등에 의거하여 5가지 유형별 추론문을 작성하여 구성한 말뭉치입니다.
㈜나라지식정보 - 일반상식 문장 교정 데이터
공공데이터포털
■ 국어를 사용하는 사람들이 매일매일의 생활에서 듣고 보고 사용하는 기초적이고 핵심적인 문장으로 구성된 데이터로 이를 통해 AI 모델이 사람의 생활에서 납득 가능한 논리적 추정을 할 수 있을 것으로 기대함 ■ 데이터 구축 목적에 부합하는가는 AI 모델이 일상생활에서 두루 쓰이는 용어 및 문장을 이해하고 이로부터 기대되는 감정과 상황 변화에 대한 보편적 지식을 산출해 내는지가 중요한 요인으로 작용함
㈜아키아카 - 법률/규정 (판결서, 약관 등) 텍스트 분석 데이터
공공데이터포털
1만 건 이상의 판결문을 대상으로 기초사실, 주장 등을 가공한 데이터와 판례 내용을 기반으로 판결문 분석 데이터 구축, 1만 건 이상의 약관의 유·불리 조항 판단. 위법성과 유리 판단 이유 태깅 및 라벨링을 통해 소비자 입장에서의 유·불리 확인을 위한 법률 텍스트 분석 데이터셋 구축
한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋
공공데이터포털
논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그* 부착 *문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB [특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
㈜나라지식정보 - 일반상식 문장 생성 데이터
공공데이터포털
■ 문장을 자동으로 생성하고 상황에 맞는 대답을 할 수 있는 지능형 어플리케이션 개발을 위한 문장 생성 학습용 데이터셋 ■ ‘한국어 일반 상식 문장 데이터 구축’ 과제 중 15-1 데이터(일반상식 문장 교정 데이터)에서 추출한 개념 정보(동사·명사, 체언, 용언)를 재구성하여 일반 상식에 부합하는 자연스러운 한국어 문장을 생성한 텍스트 데이터셋
미니게이트 - 한국어-다국어 번역 말뭉치(기초과학)
공공데이터포털
기초과학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 기초과학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터
국립국어원 - 개체명 분석 말뭉치 2022
공공데이터포털
(버전 1.1) 문장에 나타난 개체명의 경계를 표시하고 분석 표지를 부착한 말뭉치입니다.