데이터셋 상세
AI 허브
비큐에이아이 - 문서요약 텍스트
AI가 텍스트를 이해하고 핵심내용을 자동으로 요약하는 기술개발을 위한 텍스트 및 요약내용을 생성하는 텍스트 데이터
연관 데이터
바이브컴퍼니 - 도서자료 요약
공공데이터포털
도서를 기반으로 한 원문의 핵심 내용, 의미 전달을 적절히 포함하는 요약문을 자동으로 생성하는 AI기술 개발을 위한 도서 요약 텍스트 데이터
바이브컴퍼니 - 논문자료 요약
공공데이터포털
요약문을 자동으로 생성하는 자료 요약 AI 기술 개발을 위한 논문 요약, 특허 명세서 요약 텍스트 데이터
트위그팜 - AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축
공공데이터포털
• 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터 • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터
㈜와이즈넛 - 요약문 및 레포트 생성 데이터
공공데이터포털
다양한 한국어 원문 데이터로부터 정제된 추출 및 생성 요약문을 도출하고 검증한 한국어 문서요약 AI 데이터셋으로, 추출요약을 포함하여 본문에서 중요한 문장을 하나의 새로운 요약문으로 창조하는 생성요약(Abstractive Summarization)을 위한 데이터 세트를 구축하고 이를 실제 모델에 학습
국립국어원 - 문서 요약 말뭉치
공공데이터포털
(버전 1.0) 문서에서 추출한 주제문과 문서를 요약한 글로 구성된 말뭉치입니다.
한국지능정보사회진흥원 AI허브 오픈데이터 목록
공공데이터포털
본 데이터는 AI허브에서 국내외 인공지능 개발을 위해 공개한 다양한 오픈 데이터 목록을 수록하고 있습니다. 각 항목은 데이터 분류(음성, 이미지, 텍스트 등), 제목(데이터셋 명칭), 내용(데이터 구성 및 활용 목적 등 설명)으로 구성되어 있으며, 인공지능 학습용 데이터의 접근성과 활용도를 높이는 데 기여합니다. AI 기술 개발자, 연구자, 기업 등이 원하는 분야별 데이터를 효율적으로 탐색하고 활용할 수 있도록 구성되어 있으며, 데이터 품질, 구축 방식, 사용 예시 등에 대한 간략한 정보도 포함될 수 있습니다. 이 목록은 AI 생태계 전반의 개방형 데이터 전략 수립과 데이터 기반 서비스 개발에 필수적인 자료입니다.
트위그팜 - 한국어-영어 번역 말뭉치(기술과학)
공공데이터포털
기술과학(인공지능, 빅데이터, IT, SNS, 의학, 특허 등) 분야 등 한-영 번역 정확도가 상대적으로 낮은 분야의 데이터 구축을 통해 AI 기반 번역 기술 개발에 활용할 수 있는 학습 데이터셋을 구축하여 보다 원활한 기술과학 분야 관련 정보 소통 도모
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
에스티에이치아이에스 - 인공지능전문가 연관 웹 지식 참조데이터
공공데이터포털
STHIS 와 제휴관계인 인공지능 관련 업체, 대학, 기관의 전문 인력이 업무에 참고한 기사, 논문, 칼럼 등에 관심을 가지고 태깅(Tagging) 한 정보를 수집한 데이터 입니다
국립국어원 - 비출판물 말뭉치
공공데이터포털
(버전 1.2) 개인적 글쓰기 자료(시, 일기, 편지, 감상문 등)로 구성된 말뭉치입니다.