데이터셋 상세
AI 허브
포티투마루 - 국가기록물 대상 초거대 AI 학습을 위한 말뭉치 데이터
- 국가기록물 및 정부간행물을 활용한 초거대 AI 학습용 말뭉치 데이터셋 및 질의응답 데이터 구축 - 초거대 AI 언어모델을 유해한 목적으로 사용할 수 있는 분야를 비난/혐오/차별, 선정, 욕설, 폭력, 범죄, 루머, 스팸 및 광고 등 대분류 7종세분류 33종으로 분류하고 각 세분류로 80개 질의 * 페르소나 4종 생성/가공
연관 데이터
TTA - LLM 학습용 데이터 내 유해표현 검출 AI모델 학습용 데이터
공공데이터포털
LLM 학습용 데이터 내 유해표현 검출 및 유해카테고리 분류 모델 학습을 위한 데이터 - stage1(유해표현 검출) 모델 학습용 자연어 데이터 - stage2(유해 카테고리* 분류) 모델 학습용 자연어 데이터 * 유해 카테고리(11종) : 모욕, 욕설, 외설, 장애, 인종/지역, 연령, 종교, 정치성향, 직업, 성혐오, 폭력위협/범죄조장
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
㈜포티투마루 - 뉴스 기사 기계독해 데이터
공공데이터포털
국내 종합일간지 및 지역신문의 뉴스기사를 지문으로 활용, 자연어 질의 응답으로 이루어진 인공지능 학습 데이터
경상남도 창원시 빅데이터 민원통계분석용키워드
공공데이터포털
창원시 빅데이터시스템의 민원통계분석용 긍정, 부정 등 키워드 목록입니다. 항목은 연번, 키워드, 구분(불용어, 긍정) 의 목록입니다.
대구광역시교육청 대구미래교육연구원 인공지능기준관리
공공데이터포털
대구광역시교육청 대구미래교육연구원 인증기준관리 목록 데이터 입니다.대구광역시교육청 인증기준관리에 대한 데이터로 인공지능이해,인공지능활용,인공지능윤리 관련으로 초급중급고급 항목에 대한 내용의 데이터입니다.이로 구성된 공공데이터를 대구광역시교육청 대구미래교육연구원에서 제공을 하고 있습니다.*해당 정보데이터에 대한 상세한 문의나 개선 요청은 대구광역시교육청 대구미래교육연구원 정보운영부를 통해 가능합니다.-대구광역시교육청 대구미래교육연구원 정보운영부(053-231-1444)
미니게이트 - 한국어-다국어 번역 말뭉치 (인문학)
공공데이터포털
인문학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 인문학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터
연세대학교 교수 - 인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋
공공데이터포털
네이버 뉴스 기사에 등록된 댓글들과 한국어 트위터 사용자의 트윗들을 수집 비속/비윤리적 표현의 빈도수가 많은 특정 온라인 커뮤니티의 댓글들을 수집하여 구축
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
㈜알토비전 - 추상 요약 사실성 검증 데이터
공공데이터포털
요약문의 오류를 검출하고 수정하여 궁극적으로는 AI의 텍스트 자동 요약 성능을 향상하기 위한 인공지능 학습용 데이터. AI 요약문과 사람 요약문에 포함된 오류를 대분류(문장 생성 오류, 요약문의 내용 오류), 소분류(오류 유형 6가지)로 구분하여 라벨링함.
한국과학기술정보연구원 - 한국어 대화
공공데이터포털
소상공인 및 공공 민원 10개 분야에 대한 50만 건 이상의 대화를 제공하는 자연어 데이터 제공