데이터셋 상세
데이터안심구역
한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋
논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그* 부착 *문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB [특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
데이터 정보
연관 데이터
한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋
공공데이터포털
국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 [개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건 [특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터 논문 말미까지의 모든 구성요소를 대상으로 하며, 제목과 문단, 그리고 표/그림/알고리즘 등 개체의 캡션을 포함함. (1) 제목, 문단, 수식, 캡션 등에 대한 판단이 어려운 경우에는 모두 문단으로 처리함 (2) PDF를 기준으로 띄어쓰기 등을 맞춰서 내용이 변경되지 않는 선에서 편집 (3) PDF를 기준으로 할 때 문단 사이에 공백행이 존재할지라도 제목, 문단, 수식 등은 공백행 없이 엔터(Enter)로 각각 구분함 (4) 제목은 한 줄에 들어 올 수 있도록 엔터(Enter)없이 입력하며, 제목에 띄어쓰기가 불필요하게 들어간 경우에는 교정함. 제목과 문단은 엔터(Enter)로 구분함 (5) 하이픈(-), 동그라미 등 열거형 내용은 PDF의 기호를 유지하되 들여쓰기(순서 있는 목록과 순서 없는 목록 모두 포함) 하지 않음 (6) 본문 내 ""<""와 "">"" 사이에 “Figure”, ”Table”, 알파벳이 포함된 경우 ""<""와 "">""를 각각 ""[""와 ""]""로 변경함 (7) 표/그림/알고리즘 등 실제 개체는 삽입하지 않고 캡션만 편집함"" [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
한국과학기술정보연구원 - 국내 논문 QA 데이터셋
공공데이터포털
기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋 [개요] ㅇ 국내 한글 논문에서 다루는 주요 개념들인 문제, 방법, 데이터, 모델, 결과 등에 대한 이해능력을 평가할 수 있도록 구축된 질의응답 데이터 ㅇ 용량 및 건수: 276,804 건, 8 GB [특징] ㅇ [구축 및 수집 방법] - KISTI가 학술논문 데이터베이스 구축을 통해 확보한 국내 학술 논문 중 최근 10년 이내 발행된 한글 논문을 대상으로 함. - 질의 난이도를 상/중/하 중 1가지로 설정. - 핵심 어휘는 논문의 핵심 내용(문제, 방법, 모델, 데이터, 결과 등)으로 판단되는 단어, 구, 문장 등으로 선택하였음. - 핵심 어휘가 포함된 질의 문장을 작성(난이도별 작성 기준에 적합한 질의 작성)하였음. - 작성한 질의에 대한 응답을 논문 내에 존재하는 단어, 구, 문장 등 형식 상관없이 그대로 추출하였음. ㅇ [검증 방법] - 구축된 질의 문장의 핵심 어휘와 질의 의도는 변경하지 않고, 그 외 부분에 대해서 올바르게 작성되었는지 검토하였음. - 1차 응답(구축자 응답), 2차 응답(검토자 응답), 3차 응답(검수자 응답) 간의 유사도 비교 수치(F1)를 참고하여 최종 응답 선정하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 우수상) 사전학습을 활용한 논문 QA ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
㈜나라지식정보 - 일반상식 문장 생성 평가 데이터
공공데이터포털
■ 기계가 생성한 문장과 인간이 생성한 문장을 다섯 가지 기준에 따라 평가함으로써 향후 AI가 생성한 문장을 AI가 검증할 수 있도록 하는 데이 ■ 한국어 일반상식 문장 평가 과제 중 세 번째 데이터로서 두 번째 데이터(제2과제 데이터)에서 제작한 문장에 대해 사람이 만든 문장과 기계가 생성한 문장을 네 가지 속성*에 따라 3점 리커트 척도로 채점한 점수를 기술 *채점 속성 : 문법성, 사실성, 유창성, 다양성
한국과학기술정보연구원 - 논문 연구분야 분류 데이터
공공데이터포털
국가과학기술표준분류체계 기반의 논문 분류 문제를 해결하기 위한 데이터셋 [개요] ㅇ 국가과학기술표준분류체계 기반의 분류 문제를 해결하기 위한 데이터셋 ㅇ 국내 논문 3만 건을 대상으로 전문가가 연구분야를 분류한 데이터셋 ㅇ 용량 및 건수: - 논문개수: 30,000건 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
㈜나라지식정보 - 일반상식 문장 생성 데이터
공공데이터포털
■ 문장을 자동으로 생성하고 상황에 맞는 대답을 할 수 있는 지능형 어플리케이션 개발을 위한 문장 생성 학습용 데이터셋 ■ ‘한국어 일반 상식 문장 데이터 구축’ 과제 중 15-1 데이터(일반상식 문장 교정 데이터)에서 추출한 개념 정보(동사·명사, 체언, 용언)를 재구성하여 일반 상식에 부합하는 자연스러운 한국어 문장을 생성한 텍스트 데이터셋
울산광역시 남구 설문조사 목록
공공데이터포털
본 데이터는 설문지 기반의 응답 현황 및 문항별 이력 관리를 위한 "설문조사 목록"으로, 설문 응답 데이터의 기본 단위를 구성한다. 주요 필드로는 문항답변유무, 설문지ID, 설문문항ID, 설문템플릿ID가 포함되며, 각 문항의 최초 등록 및 최종 수정 시점과 담당자 식별자(최초등록자ID, 최종수정자ID)를 함께 기록한다. 이를 통해 설문지 구성 구조, 응답 여부 파악, 설문 템플릿 적용 현황 및 등록·수정 이력 관리가 가능하다. 데이터는 매년 1회 정기적으로 갱신할 계획이며, 본 자료는 2025년 9월 5일 기준으로 추출되었다. 향후 설문 응답률 분석, 항목별 응답 분포 파악, 템플릿 활용 현황 검토 등 정책 수립 및 설문 운영 개선에 유용하게 활용될 수 있다.
㈜와이즈넛 - 요약문 및 레포트 생성 데이터
공공데이터포털
다양한 한국어 원문 데이터로부터 정제된 추출 및 생성 요약문을 도출하고 검증한 한국어 문서요약 AI 데이터셋으로, 추출요약을 포함하여 본문에서 중요한 문장을 하나의 새로운 요약문으로 창조하는 생성요약(Abstractive Summarization)을 위한 데이터 세트를 구축하고 이를 실제 모델에 학습
충청북도 단양군 평생학습 강의평가
공공데이터포털
충청북도 단양군 평생학습센터 홈페이지 의 중장기 개방계획에 따라 개방된 목록의 개선 의견에 따라 개방된 데이터로 강의평가제목, 질문명, 타입, 문항1, 문항2, 문항3, 문항4, 문항5, 문항6, 주관식 및 답변 항목을 포함하고 있음.
미니게이트 - 한국어-다국어 번역 말뭉치 (인문학)
공공데이터포털
인문학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 인문학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터
미니게이트 - 한국어-다국어 번역 말뭉치(기초과학)
공공데이터포털
기초과학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 기초과학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터