데이터셋 상세
AI 허브
포티투마루 - 도서자료 기계독해
기존 AI 질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 자연어 형태의 질의를 받아 지식 정보를 제공하는 서비스에 활용할 수 있는 딥러닝 기반 기계 독해 학습데이터셋 구축
연관 데이터
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
㈜포티투마루 - 뉴스 기사 기계독해 데이터
공공데이터포털
국내 종합일간지 및 지역신문의 뉴스기사를 지문으로 활용, 자연어 질의 응답으로 이루어진 인공지능 학습 데이터
㈜위지윅스튜디오 - 안면 랜드마크 데이터
공공데이터포털
- 인공지능 학습용 데이터 구축을 위한 ‘안면 랜드마크 데이터’의 원천데이터를 획득하여 AI 학습용 데이터로 정제, 가공하여 공개하는 것을 목표로 함
포티투마루 - 전문분야 말뭉치
공공데이터포털
상대적으로 성능 확보가 어려운 전문 분야에 대한 자연어 처리(Natural Language Processing) 학습용 말뭉치 데이터 구축
마인즈랩 - 기계독해
공공데이터포털
기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건을 구축한 지식베이스 제공
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
트위그팜 - AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축
공공데이터포털
• 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터 • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터
㈜워트인텔리전스 - 지식재산권법 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
사법분야 초거대 AI 학습을 위해 지식재산권법의 법령, 판결문, 심결례, 심결문 및 유권해석 원시데이터로부터 각 분야의 문장을 추출/가공하여 질의/응답 및 요약을 위한 초거대 AI 학습용 Instruction tuning data를 구축함
㈜딥브레인AI(舊머니브레인) - 딥페이크 변조 영상
공공데이터포털
신경망 기반의 변조 알고리즘을 통해 생성된 변조 영상(딥페이크)을 탐지·검출하는 AI 기술 개발을 위해 다양한 탐지 방해의 가능성을 고려하여 학습용 변조영상 데이터 구축
국립국어원 - 신문 말뭉치
공공데이터포털
(버전 2.0) 종합지, 전문지, 인터넷 기반 신문 매체의 기사(2009년~2018년)로 구성된 말뭉치입니다.