데이터셋 상세
데이터안심구역
한국과학기술정보연구원 - 국내 논문 QA 데이터셋
기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋 [개요] ㅇ 국내 한글 논문에서 다루는 주요 개념들인 문제, 방법, 데이터, 모델, 결과 등에 대한 이해능력을 평가할 수 있도록 구축된 질의응답 데이터 ㅇ 용량 및 건수: 276,804 건, 8 GB [특징] ㅇ [구축 및 수집 방법] - KISTI가 학술논문 데이터베이스 구축을 통해 확보한 국내 학술 논문 중 최근 10년 이내 발행된 한글 논문을 대상으로 함. - 질의 난이도를 상/중/하 중 1가지로 설정. - 핵심 어휘는 논문의 핵심 내용(문제, 방법, 모델, 데이터, 결과 등)으로 판단되는 단어, 구, 문장 등으로 선택하였음. - 핵심 어휘가 포함된 질의 문장을 작성(난이도별 작성 기준에 적합한 질의 작성)하였음. - 작성한 질의에 대한 응답을 논문 내에 존재하는 단어, 구, 문장 등 형식 상관없이 그대로 추출하였음. ㅇ [검증 방법] - 구축된 질의 문장의 핵심 어휘와 질의 의도는 변경하지 않고, 그 외 부분에 대해서 올바르게 작성되었는지 검토하였음. - 1차 응답(구축자 응답), 2차 응답(검토자 응답), 3차 응답(검수자 응답) 간의 유사도 비교 수치(F1)를 참고하여 최종 응답 선정하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 우수상) 사전학습을 활용한 논문 QA ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
데이터 정보
연관 데이터
한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋
공공데이터포털
논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그* 부착 *문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB [특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
한국과학기술정보연구원 - 논문 연구분야 분류 데이터
공공데이터포털
국가과학기술표준분류체계 기반의 논문 분류 문제를 해결하기 위한 데이터셋 [개요] ㅇ 국가과학기술표준분류체계 기반의 분류 문제를 해결하기 위한 데이터셋 ㅇ 국내 논문 3만 건을 대상으로 전문가가 연구분야를 분류한 데이터셋 ㅇ 용량 및 건수: - 논문개수: 30,000건 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋
공공데이터포털
국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 [개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건 [특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터 논문 말미까지의 모든 구성요소를 대상으로 하며, 제목과 문단, 그리고 표/그림/알고리즘 등 개체의 캡션을 포함함. (1) 제목, 문단, 수식, 캡션 등에 대한 판단이 어려운 경우에는 모두 문단으로 처리함 (2) PDF를 기준으로 띄어쓰기 등을 맞춰서 내용이 변경되지 않는 선에서 편집 (3) PDF를 기준으로 할 때 문단 사이에 공백행이 존재할지라도 제목, 문단, 수식 등은 공백행 없이 엔터(Enter)로 각각 구분함 (4) 제목은 한 줄에 들어 올 수 있도록 엔터(Enter)없이 입력하며, 제목에 띄어쓰기가 불필요하게 들어간 경우에는 교정함. 제목과 문단은 엔터(Enter)로 구분함 (5) 하이픈(-), 동그라미 등 열거형 내용은 PDF의 기호를 유지하되 들여쓰기(순서 있는 목록과 순서 없는 목록 모두 포함) 하지 않음 (6) 본문 내 ""<""와 "">"" 사이에 “Figure”, ”Table”, 알파벳이 포함된 경우 ""<""와 "">""를 각각 ""[""와 ""]""로 변경함 (7) 표/그림/알고리즘 등 실제 개체는 삽입하지 않고 캡션만 편집함"" [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
한국과학기술정보연구원 - 보고서 표/그림 데이터셋
공공데이터포털
국가R&D보고서로부터 추출한 표/그림 이미지 데이터셋과 설명 텍스트 데이터셋 [개요] ㅇ 국가R&D보고서로부터 추출한 표/그림 이미지 데이터셋과 설명 텍스트 데이터셋 ㅇ 국가R&D보고서 본문에서 표/그림 이미지를 추출하고 표/그림을 설명하는 부분을 텍스트 데이터 형태로 추출하여 가공 ㅇ 용량 및 건수: - 보고서 개수: 47,976건 - 이미지 개수: 3,546,095건 [특징] ㅇ [구축 및 수집 방법] - 국가 R&D 연구보고서 원문에 포함된 표/그림에 대한 설명 데이터를 구축하였음. (1) 표/그림의 캡션명이나 핵심 키워드를 보고서 원문 3페이지 이내에서 우선 검색. (2) 여기서 3page란, 이전 페이지, 표/그림이 포함된 페이지, 다음 페이지를 의미함. (3) 3page내 없다면 그 외 페이지에 해당 표·그림을 설명하는 내용이 있는지 확인. (4) 표/그림 설명은 최소 1개에서 최대 3개까지 입력함 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
광주광역시교육청 학원 교습소 정보
공공데이터포털
광주광역시 학원, 교습소 및 독서실 정보에 대한 데이터로 업체명, 교습정보, 교습비 세부내용 등의 항목을 제공합니다.
한국교육과정평가원 Research Reports 목록
공공데이터포털
한국교육과정평가원에서 발간한 Research Reports를 온라인으로 제공합니다. 링크된 웹페이지를 통해 Reports를 확인할 수 있으며, 연도별로 형식(ebook, PDF 파일)은 상이할 수 있습니다.
특허청 KIPRISPlus 국내특허 도면부호정보
공공데이터포털
국내특허 도면부호정보 추출을 위한 AI 학습데이터를 대용량(Bulk)으로 제공합니다. 도면이미지에서 태깅 작업된 부호정보 학습데이터를 제공합니다.
고려대학교 산학협력단 - 한국어-영어 합성 기계번역 품질 예측 데이터셋
공공데이터포털
한국어-영어 합성 기계번역 품질 예측 데이터(A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation, QUAK)는 한국어 문장과 영어 기계번역 문장을 참조하여 각 문장들에 대한 기계번역 결과 품질을 토큰별 OK/BAD 태그로 예측하는 기계번역 품질 예측 모델 학습 데이터셋이다. 해당 데이터로 학습한 기계번역 품질 예측 모델은 정답 문장이 없이도 번역의 품질을 예측할 수 있으므로 정답 문장이 없는 real-world problems에 적용될 수 있다. 기계번역 결과 중 어떠한 토큰(어절)이 잘못 번역되었는지를 단어별로 OK/BAD 태그하며, 얼라인된 소스토큰에 대해서도 태그를 나타내므로 번역 언어를 모르는 사용자들도 어떤 단어의 번역이 잘못되었는지를 알 수 있다.
울산광역시 남구 설문조사 목록
공공데이터포털
본 데이터는 설문지 기반의 응답 현황 및 문항별 이력 관리를 위한 "설문조사 목록"으로, 설문 응답 데이터의 기본 단위를 구성한다. 주요 필드로는 문항답변유무, 설문지ID, 설문문항ID, 설문템플릿ID가 포함되며, 각 문항의 최초 등록 및 최종 수정 시점과 담당자 식별자(최초등록자ID, 최종수정자ID)를 함께 기록한다. 이를 통해 설문지 구성 구조, 응답 여부 파악, 설문 템플릿 적용 현황 및 등록·수정 이력 관리가 가능하다. 데이터는 매년 1회 정기적으로 갱신할 계획이며, 본 자료는 2025년 9월 5일 기준으로 추출되었다. 향후 설문 응답률 분석, 항목별 응답 분포 파악, 템플릿 활용 현황 검토 등 정책 수립 및 설문 운영 개선에 유용하게 활용될 수 있다.