데이터셋 상세
AI 허브
TTA - LLM 학습용 데이터 내 유해표현 검출 AI모델 학습용 데이터
LLM 학습용 데이터 내 유해표현 검출 및 유해카테고리 분류 모델 학습을 위한 데이터 - stage1(유해표현 검출) 모델 학습용 자연어 데이터 - stage2(유해 카테고리* 분류) 모델 학습용 자연어 데이터 * 유해 카테고리(11종) : 모욕, 욕설, 외설, 장애, 인종/지역, 연령, 종교, 정치성향, 직업, 성혐오, 폭력위협/범죄조장
연관 데이터
데이터마케팅코리아 - 맘카페 교육학원 연관어 분석 데이터
공공데이터포털
ㅇ 데이터 소개 - 맘카페(커뮤니티)에서 자녀교육에 대한 원문 데이터를 유형별 분석키워드(유아영어, 초등영어 등)에 대한 연관어와 랭킹을 추출한 데이터입니다. - 연관어 추출 기준은 원문데이터에서 '분석키워드(유아영어, 초등영어 등)'의 거리간 유의미를 판단하여 같이 중요하게 나오는 단어를 랭킹으로 추출하였습니다. - 분석키워드(검색어명), 연관어, 순위 등의 결과를 월단위로 제공합니다. ㅇ 활용 분야 - 자녀교육에 대한 엄마들의 Real Buzz에 대한 연관어 분석 - 연관어 분석 결과를 통해 워드클라우드(시각화) 활용 ㅇ 데이터 출처 - [데이터] 맘카페(커뮤니티) 데이터 기반으로 데이터마케티코리아 자체 제공 ㅇ 특이사항 - 데이터 수집기간 : 2020-01-01 ~ - 1년(12개월) 데이터를 하나의 파일로 다운로드 받으시려면, "맞춤데이터신청" 에서 신청해주세요. - 맞춤데이터신청 방법 : 상단메뉴[데이터 상담소 > 맞춤형 데이터 신청] 요청내용에 "데이터 상품명", "데이터기간" 을 작성해주세요! * 데이터 갱신 주기가 Monthly이므로, 데이터기간은 '시작일'과 '마지막일'을 월 단위로 입력해주세요. ex. 2020-01-01 ~ 2020-07-31 (O) 혹은 2020년 1월~ 2020년 7월 (O) 2020-01-15 ~ 2020-07-20 (X) ㅇ 특이사항 - 해당 데이터는 관련사업 종료로 인해 2022년부터 업데이트 주기가 Monthly에서 Quarterly로 변경됩니다. 추가적인 문의는 데이터 상담소 > 데이터 문의 게시판을 이용해주세요.
여성가족부 기관유형별 성희롱방지조치추진 실적정보
공공데이터포털
기관유형별 성희롱방지조치추진 실적 정보 서비스 정보를 제공합니다. 기관유형명, 고충상담원지정률, 고충상담창구설치율, 성희롱예방지침 제정률, 성폭력 예방지침 제정률.
한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋
공공데이터포털
논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그* 부착 *문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB [특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음. [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
㈜윤즈정보개발 - 법률/규정 텍스트 분석 데이터 (고도화)- 상황에 따른 판례 데이터
공공데이터포털
- 학계와 산업계의 법률 자연어처리 및 인공지능 연구와 기술 개발에 필요한 60,000건 이상의 판례 데이터를 라벨링한 학습용 데이터를 구축 - 인공지능 학습에서 판례 데이터의 비율 분포를 실제 비율과 유사하도록 고른 비율로 수집하고 카테고리별 2,000건 이상이 되도록 데이터를 구성 - 활용도가 높은 판례 데이터를 수집하고 판례의 주요 내용을 추출요약하고, 질의응답 셋을 작성, 용어 정보(키워드)를 라벨링하여 인공지능 학습에 도움이 되는 데이터를 구축
여성가족부 기관유형별 폭력예방교육 부진기관 정보
공공데이터포털
성희롱, 성폭력, 성매매, 가정폭력 등 기관유형별 폭력예방교육 부진기관 수량 정보(2016년)의 정보를 제공하오니 참고하시기 바랍니다.