데이터마케팅코리아 - 맘카페 교육학원 연관어 분석 데이터
공공데이터포털
ㅇ 데이터 소개 - 맘카페(커뮤니티)에서 자녀교육에 대한 원문 데이터를 유형별 분석키워드(유아영어, 초등영어 등)에 대한 연관어와 랭킹을 추출한 데이터입니다. - 연관어 추출 기준은 원문데이터에서 '분석키워드(유아영어, 초등영어 등)'의 거리간 유의미를 판단하여 같이 중요하게 나오는 단어를 랭킹으로 추출하였습니다. - 분석키워드(검색어명), 연관어, 순위 등의 결과를 월단위로 제공합니다. ㅇ 활용 분야 - 자녀교육에 대한 엄마들의 Real Buzz에 대한 연관어 분석 - 연관어 분석 결과를 통해 워드클라우드(시각화) 활용 ㅇ 데이터 출처 - [데이터] 맘카페(커뮤니티) 데이터 기반으로 데이터마케티코리아 자체 제공 ㅇ 특이사항 - 데이터 수집기간 : 2020-01-01 ~ - 1년(12개월) 데이터를 하나의 파일로 다운로드 받으시려면, "맞춤데이터신청" 에서 신청해주세요. - 맞춤데이터신청 방법 : 상단메뉴[데이터 상담소 > 맞춤형 데이터 신청] 요청내용에 "데이터 상품명", "데이터기간" 을 작성해주세요! * 데이터 갱신 주기가 Monthly이므로, 데이터기간은 '시작일'과 '마지막일'을 월 단위로 입력해주세요. ex. 2020-01-01 ~ 2020-07-31 (O) 혹은 2020년 1월~ 2020년 7월 (O) 2020-01-15 ~ 2020-07-20 (X) ㅇ 특이사항 - 해당 데이터는 관련사업 종료로 인해 2022년부터 업데이트 주기가 Monthly에서 Quarterly로 변경됩니다. 추가적인 문의는 데이터 상담소 > 데이터 문의 게시판을 이용해주세요.
한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋
공공데이터포털
논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그* 부착 *문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB [특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.