한국과학기술정보연구원 - 국내 논문 QA 데이터셋
공공데이터포털
기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋 [개요] ㅇ 국내 한글 논문에서 다루는 주요 개념들인 문제, 방법, 데이터, 모델, 결과 등에 대한 이해능력을 평가할 수 있도록 구축된 질의응답 데이터 ㅇ 용량 및 건수: 276,804 건, 8 GB [특징] ㅇ [구축 및 수집 방법] - KISTI가 학술논문 데이터베이스 구축을 통해 확보한 국내 학술 논문 중 최근 10년 이내 발행된 한글 논문을 대상으로 함. - 질의 난이도를 상/중/하 중 1가지로 설정. - 핵심 어휘는 논문의 핵심 내용(문제, 방법, 모델, 데이터, 결과 등)으로 판단되는 단어, 구, 문장 등으로 선택하였음. - 핵심 어휘가 포함된 질의 문장을 작성(난이도별 작성 기준에 적합한 질의 작성)하였음. - 작성한 질의에 대한 응답을 논문 내에 존재하는 단어, 구, 문장 등 형식 상관없이 그대로 추출하였음. ㅇ [검증 방법] - 구축된 질의 문장의 핵심 어휘와 질의 의도는 변경하지 않고, 그 외 부분에 대해서 올바르게 작성되었는지 검토하였음. - 1차 응답(구축자 응답), 2차 응답(검토자 응답), 3차 응답(검수자 응답) 간의 유사도 비교 수치(F1)를 참고하여 최종 응답 선정하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 우수상) 사전학습을 활용한 논문 QA ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
전북개발공사 전자문서 내 일정 자동 등록 시스템(TimeGuardian 프로그램) 소스코드
공공데이터포털
본 데이터는 그룹웨어 문서 분석 및 일정 자동 등록 시스템에 대한 개발자 가이드와 소스 코드로 구성되어 있습니다. 시스템은 OpenAI API를 활용하여 문서의 내용을 분석하고, 일정 관련 정보를 자동으로 추출한 뒤 해당 일정을 그룹웨어 시스템에 등록하는 기능을 제공합니다.개발자는 제공된 가이드를 통해 소스코드 실행 방법, 데이터베이스 연동 절차, 예외 처리 및 오류 관리 방안을 확인하여 다양한 환경에 적용할 수 있습니다.이를 통해 사용자는 회의 일정, 마감일, 업무 계획 등 문서에 포함된 일정을 별도의 입력 없이 자동으로 캘린더에 반영할 수 있으며 행정 업무의 효율성과 데이터 활용성을 동시에 향상시킬 수 있습니다.