한국과학기술정보연구원 - 국내 논문 QA 데이터셋
공공데이터포털
기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋 [개요] ㅇ 국내 한글 논문에서 다루는 주요 개념들인 문제, 방법, 데이터, 모델, 결과 등에 대한 이해능력을 평가할 수 있도록 구축된 질의응답 데이터 ㅇ 용량 및 건수: 276,804 건, 8 GB [특징] ㅇ [구축 및 수집 방법] - KISTI가 학술논문 데이터베이스 구축을 통해 확보한 국내 학술 논문 중 최근 10년 이내 발행된 한글 논문을 대상으로 함. - 질의 난이도를 상/중/하 중 1가지로 설정. - 핵심 어휘는 논문의 핵심 내용(문제, 방법, 모델, 데이터, 결과 등)으로 판단되는 단어, 구, 문장 등으로 선택하였음. - 핵심 어휘가 포함된 질의 문장을 작성(난이도별 작성 기준에 적합한 질의 작성)하였음. - 작성한 질의에 대한 응답을 논문 내에 존재하는 단어, 구, 문장 등 형식 상관없이 그대로 추출하였음. ㅇ [검증 방법] - 구축된 질의 문장의 핵심 어휘와 질의 의도는 변경하지 않고, 그 외 부분에 대해서 올바르게 작성되었는지 검토하였음. - 1차 응답(구축자 응답), 2차 응답(검토자 응답), 3차 응답(검수자 응답) 간의 유사도 비교 수치(F1)를 참고하여 최종 응답 선정하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 우수상) 사전학습을 활용한 논문 QA ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.