데이터셋 상세
AI 허브
㈜유클리드소프트 - 표 정보 질의응답 데이터
테이블이 포함된 일반 문서 내에서 표 내의 특정 값을 탐색하기 위한 기계학습용 질의어와 정답 세트 데이터
연관 데이터
공정거래위원회 페어데이터 가맹정보 자연어 기반 질의 학습데이터 목록 제공서비스
공공데이터포털
정보공개서 약1만건의 중목차의 데이터를 "자연어처리(NLP) 모델"을 활용하여 학습데이터(JSON)파일을 생성하였습니다. 주요 제공 항목으로는 가맹사업 기준년도, 가맹본부 상호명, 브랜드명, SQL 데이터, 자연어 질문, TABLE, META 정보가 있습니다. 해당 데이터 통해 인공지능 모델 학습 및 통계, 분석 등에 활용할 수 있습니다.
㈜비네아 - 국회 회의록 기반 지식 검색 데이터
공공데이터포털
- 국회 회의록에서 발언을 질문과 답변으로 분리하고, 그 질문과 답변을 활용하여 생성한 인공지능 학습용 데이터셋
통계청 인공지능 학습을 위한 고용기사 라벨링 데이터
공공데이터포털
2018년1월부터 2020년 8월까지의 네이버 경제/사회면 속보성 기사를 고용 관련 기사와 아닌 것으로 분류한 인공지능 학습용 데이터입니다. 자료의 라벨러1 ~ 라벨러6 컬럼명은 작업에 참여한 6명의 라벨러 순번을 의미하며, 해당 컬럼의 값은 각 라벨러가 고용 관련 기사로 판단(O, X)했는지 유무입니다. (2020년 공공데이터 기업매칭 지원사업의 과제로 구축된 데이터입니다.)
웰컴에프앤디 - 인공지능 모델 개발 및 데이터셋 분석설계
공공데이터포털
웰컴금융그룹 철강유통가공업 스틸센터 운영데이터 인공지능 학습 데이터셋,웰컴금융그룹 철강유통가공업 스틸센터 운영데이터 인공지능 학습 데이터셋,
MBN - AI 학습용 원시데이터 - 대박의 비밀
공공데이터포털
매경미디어그룹 MBN방송 동영상 데이터로 AI 인공지능 학습 활용 및 연구 개발 할 수 있는 원시 데이터 및 메타 데이터 셋을 제공 합니다. (동영상 가격 및 제공 프로토콜은 협의),,
한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋
공공데이터포털
논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그* 부착 *문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB [특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.