한국과학기술정보연구원 - 국내 논문 QA 데이터셋
공공데이터포털
기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋 [개요] ㅇ 국내 한글 논문에서 다루는 주요 개념들인 문제, 방법, 데이터, 모델, 결과 등에 대한 이해능력을 평가할 수 있도록 구축된 질의응답 데이터 ㅇ 용량 및 건수: 276,804 건, 8 GB [특징] ㅇ [구축 및 수집 방법] - KISTI가 학술논문 데이터베이스 구축을 통해 확보한 국내 학술 논문 중 최근 10년 이내 발행된 한글 논문을 대상으로 함. - 질의 난이도를 상/중/하 중 1가지로 설정. - 핵심 어휘는 논문의 핵심 내용(문제, 방법, 모델, 데이터, 결과 등)으로 판단되는 단어, 구, 문장 등으로 선택하였음. - 핵심 어휘가 포함된 질의 문장을 작성(난이도별 작성 기준에 적합한 질의 작성)하였음. - 작성한 질의에 대한 응답을 논문 내에 존재하는 단어, 구, 문장 등 형식 상관없이 그대로 추출하였음. ㅇ [검증 방법] - 구축된 질의 문장의 핵심 어휘와 질의 의도는 변경하지 않고, 그 외 부분에 대해서 올바르게 작성되었는지 검토하였음. - 1차 응답(구축자 응답), 2차 응답(검토자 응답), 3차 응답(검수자 응답) 간의 유사도 비교 수치(F1)를 참고하여 최종 응답 선정하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 우수상) 사전학습을 활용한 논문 QA ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋
공공데이터포털
논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그* 부착 *문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB [특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
한국과학기술원 저널논문 정보에 대한 정보 입니다. 해당 데이터가 보유한 컬럼은 다음과 같습니다. 컬럼명: 아이템 ,서지정보,자료유형,국제표준간행물번호,발행일,출판사,입력일,자료명,갱신일,통합지원식별자
한국과학기술정보연구원 - 보고서 표/그림 데이터셋
공공데이터포털
국가R&D보고서로부터 추출한 표/그림 이미지 데이터셋과 설명 텍스트 데이터셋 [개요] ㅇ 국가R&D보고서로부터 추출한 표/그림 이미지 데이터셋과 설명 텍스트 데이터셋 ㅇ 국가R&D보고서 본문에서 표/그림 이미지를 추출하고 표/그림을 설명하는 부분을 텍스트 데이터 형태로 추출하여 가공 ㅇ 용량 및 건수: - 보고서 개수: 47,976건 - 이미지 개수: 3,546,095건 [특징] ㅇ [구축 및 수집 방법] - 국가 R&D 연구보고서 원문에 포함된 표/그림에 대한 설명 데이터를 구축하였음. (1) 표/그림의 캡션명이나 핵심 키워드를 보고서 원문 3페이지 이내에서 우선 검색. (2) 여기서 3page란, 이전 페이지, 표/그림이 포함된 페이지, 다음 페이지를 의미함. (3) 3page내 없다면 그 외 페이지에 해당 표·그림을 설명하는 내용이 있는지 확인. (4) 표/그림 설명은 최소 1개에서 최대 3개까지 입력함 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
한국연구재단 한국연구재단 KCI 분야별 논문수
공공데이터포털
한국학술지인용색인(KCI)에 수록된 논문을 주제 분야별로 분류하여 논문 수, 저자 수, 참고문헌 수 등의 다양한 상세 지표를 제공하는 데이터 목록입니다. 각 분야별 학술지의 연구 활동 현황과 논문 생산량을 파악할 수 있어, 학문 분야별 연구 동향 분석, 연구 기획, 정책 수립, 연구성과의 평가 등에 활용할 수 있습니다. 또한 학술연구의 분야별 성장 추이와 연구자 네트워크 분석, 인용 패턴 파악 등에도 유용하게 활용 가능합니다. 연간 주기로 업데이트되어, 수정일자를 기준으로 최신 학술정보를 반영합니다.
서울특별시 - 서울시 연구기관 현황 통계
공공데이터포털
○ 통계개요 * 통계명 : 연구기관 현황 * 통계종류 : 전국 연구기관 및 연구원 현황을 제공하는 지정통계, 조사통계 * 작성목적 : 국내의 과학기술에 관한 연구개발활동 현황을 파악하여 국가 과학기술 정책수립에 필요한 기초자료로 활용함과 아울러 각계의 과학기술분야 종사자로 하여금 연구개발계획 수립 등에 기초자료로 활용 * 조사체계 : 조사대상→위탁기관(한국과학기술기획평가원) →미래창조과학부 * 공표주기 : 정기(매년)) * 공표범위 : 지역 - 전국, 수도권(서울,인천,경기), 수도권이외 지역 내용 - 연구개발조직의 연구개발주체별 수행조직수와 연구원수 등 ○ 용어설명 * 연구기관 : 국립.공립 연구소, 교육기관 및 민간기업의 부속 연구소 등이 포함 * 연구개발활동 : 새로운 지식을 획득하거나 기존 지식을 활용하여 새로운 방법을 찾아내기 위한 창조적인 노력 및 탐구를 의미 (시험생산이나 상업화단계는 연구개발에서 제외) * 연구원 : 학사학위 이상의 학위 소지자 또는 동등학위 이상의 전문지식을 갖고 있는 사람으로서 연구개발과제에 참여한 사람 * 연구기관 구분 - 국·공립 연구기관 = 국·공립시험연구기관 + 국공립병원 - 출연 연구기관 = 정부출연(연) + 지방자치단체출연(연) - 기타 비영리 = 사립병원 + 기타비영리 - 국·공립 대학 = 국·공립대학 + 국·공립대학 부속병원 - 사립 대학 = 사립대학 + 사립대학 부속병원 - 정부투자기관 = 정부투자기관 + 정부재투자기관 + 기타 - 민간 기업 = 민간기업 ○ 기 타 * 2007년부터는 자연과학분야와 인문사회과학분야의 합 * 연구개발활동조사는 연구개발수행자 관점에서의 조사이므로 자료이용시 유의 ○ 출 처 : 과학기술정보통신부, 한국과학기술기획평가원「연구개발활동조사보고서」
한국원자력연구원 양성자가속기 및 이온빔장치 활용 이용자 논문목록
공공데이터포털
한국원자력연구원_양성자가속기 및 이온빔장치 활용 이용자 논문목록 데이터 입니다. 데이터 칼럼 리스트는 년도, 논문제목, 주저자(연구책임자), 게재지명, 과학인용색인/비과학인용색인, 국제 표준 연속 간행물 번호, 배포, 국가 입니다.(한국원자력연구원의 시설인 경주 양성자기속기와 이용빔장치를 활용한 국내외 학술논문지에 게재한 논문 목록)