데이터셋 상세
AI 허브
연세대학교 교수 - 인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋
네이버 뉴스 기사에 등록된 댓글들과 한국어 트위터 사용자의 트윗들을 수집 비속/비윤리적 표현의 빈도수가 많은 특정 온라인 커뮤니티의 댓글들을 수집하여 구축
데이터 정보
연관 데이터
대구광역시교육청 대구미래교육연구원 인공지능기준관리
공공데이터포털
대구광역시교육청 대구미래교육연구원 인증기준관리 목록 데이터 입니다.대구광역시교육청 인증기준관리에 대한 데이터로 인공지능이해,인공지능활용,인공지능윤리 관련으로 초급중급고급 항목에 대한 내용의 데이터입니다.이로 구성된 공공데이터를 대구광역시교육청 대구미래교육연구원에서 제공을 하고 있습니다.*해당 정보데이터에 대한 상세한 문의나 개선 요청은 대구광역시교육청 대구미래교육연구원 정보운영부를 통해 가능합니다.-대구광역시교육청 대구미래교육연구원 정보운영부(053-231-1444)
㈜포티투마루 - 뉴스 기사 기계독해 데이터
공공데이터포털
국내 종합일간지 및 지역신문의 뉴스기사를 지문으로 활용, 자연어 질의 응답으로 이루어진 인공지능 학습 데이터
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
포티투마루 - 국가기록물 대상 초거대 AI 학습을 위한 말뭉치 데이터
공공데이터포털
- 국가기록물 및 정부간행물을 활용한 초거대 AI 학습용 말뭉치 데이터셋 및 질의응답 데이터 구축 - 초거대 AI 언어모델을 유해한 목적으로 사용할 수 있는 분야를 비난/혐오/차별, 선정, 욕설, 폭력, 범죄, 루머, 스팸 및 광고 등 대분류 7종세분류 33종으로 분류하고 각 세분류로 80개 질의 * 페르소나 4종 생성/가공
㈜알토비전 - 추상 요약 사실성 검증 데이터
공공데이터포털
요약문의 오류를 검출하고 수정하여 궁극적으로는 AI의 텍스트 자동 요약 성능을 향상하기 위한 인공지능 학습용 데이터. AI 요약문과 사람 요약문에 포함된 오류를 대분류(문장 생성 오류, 요약문의 내용 오류), 소분류(오류 유형 6가지)로 구분하여 라벨링함.
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터
공공데이터포털
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
㈜나라지식정보 - 일반상식 문장 생성 평가 데이터
공공데이터포털
■ 기계가 생성한 문장과 인간이 생성한 문장을 다섯 가지 기준에 따라 평가함으로써 향후 AI가 생성한 문장을 AI가 검증할 수 있도록 하는 데이 ■ 한국어 일반상식 문장 평가 과제 중 세 번째 데이터로서 두 번째 데이터(제2과제 데이터)에서 제작한 문장에 대해 사람이 만든 문장과 기계가 생성한 문장을 네 가지 속성*에 따라 3점 리커트 척도로 채점한 점수를 기술 *채점 속성 : 문법성, 사실성, 유창성, 다양성
㈜아키아카 - 법률/규정 (판결서, 약관 등) 텍스트 분석 데이터
공공데이터포털
1만 건 이상의 판결문을 대상으로 기초사실, 주장 등을 가공한 데이터와 판례 내용을 기반으로 판결문 분석 데이터 구축, 1만 건 이상의 약관의 유·불리 조항 판단. 위법성과 유리 판단 이유 태깅 및 라벨링을 통해 소비자 입장에서의 유·불리 확인을 위한 법률 텍스트 분석 데이터셋 구축
㈜비네아 - 한국어 지식기반 관계 데이터
공공데이터포털
문장 내 등장하는 개체(Named Entity) 사이의 관계(Relation) 및 그 속성을 라벨링하여, 문맥 속에서 개체 간 관계 등 다양한 분야의 의미 기반 관계 분석이 가능한 인공지능 학습용 데이터셋을 구축함