데이터셋 상세
AI 허브
㈜포티투마루 - 뉴스 기사 기계독해 데이터
국내 종합일간지 및 지역신문의 뉴스기사를 지문으로 활용, 자연어 질의 응답으로 이루어진 인공지능 학습 데이터
연관 데이터
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
포티투마루 - 도서자료 기계독해
공공데이터포털
기존 AI 질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 자연어 형태의 질의를 받아 지식 정보를 제공하는 서비스에 활용할 수 있는 딥러닝 기반 기계 독해 학습데이터셋 구축
국립국어원 - 신문 말뭉치
공공데이터포털
(버전 2.0) 종합지, 전문지, 인터넷 기반 신문 매체의 기사(2009년~2018년)로 구성된 말뭉치입니다.
국립국어원 - 신문 말뭉치 2021
공공데이터포털
(버전 1.0) 종합지, 전문지, 인터넷 기반 신문 매체의 기사(2020년)로 구성된 말뭉치입니다.
국립국어원 - 신문 말뭉치 2020
공공데이터포털
(버전 1.1) 종합지, 전문지, 인터넷 기반 신문 매체의 기사(2019년)로 구성된 말뭉치입니다.
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
전주대 산학협력단 - 국악 악보 및 음원 데이터
공공데이터포털
• 1인미디어와 메타버스 시대에 인공지능을 통해 새로운 전통음악을 창작하고 전파하여 국악 대중화의 새로운 단계를 이끌 수 있도록 최적의 AI학습용 데이터를 개발
솔트룩스이노베이션 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
국립국어원 - 의미역 기술 모형
공공데이터포털
(버전 1.0) 술어의 필수 의미역(우리말샘과 세종 전자사전 의미 번호 부착)을 기술한 모형입니다.
순천향대학교 산학협력단 - 청성유발반응검사 데이터
공공데이터포털
인공지능 학습용 청성유발반응검사 데이터 구축 인공지능 학습용 다차원 청성유발 반응검사 데이터에 대한 어노테이션 및 전의교차검증