데이터셋 상세
AI 허브
포티투마루 - 전문분야 말뭉치
상대적으로 성능 확보가 어려운 전문 분야에 대한 자연어 처리(Natural Language Processing) 학습용 말뭉치 데이터 구축
연관 데이터
포티투마루 - 도서자료 기계독해
공공데이터포털
기존 AI 질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 자연어 형태의 질의를 받아 지식 정보를 제공하는 서비스에 활용할 수 있는 딥러닝 기반 기계 독해 학습데이터셋 구축
㈜포티투마루 - 뉴스 기사 기계독해 데이터
공공데이터포털
국내 종합일간지 및 지역신문의 뉴스기사를 지문으로 활용, 자연어 질의 응답으로 이루어진 인공지능 학습 데이터
아키아카 - 방송콘텐츠 한국어-아시아어 번역 말뭉치
공공데이터포털
방송콘텐츠의 인공신경망기계번역기(Neural Machin Translation;NMT) 성능향상을 위하여 학습데이터로 활용하기 위한 한국어-아시아어 음성 및 말뭉치 데이터
㈜ 트위그팜 - 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터
공공데이터포털
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 일상생활 및 구어체 번역기의 성능 향상을 위한 학습용 데이터
국립국어원 - 온라인 게시 자료 말뭉치 2022
공공데이터포털
(버전 1.0) 게시판, 누리 소통망 등에서 수집한 언어 자료로 구성한 말뭉치입니다.
㈜ 트위그팜 - 기술과학 분야 한-영 번역 병렬 말뭉치 데이터
공공데이터포털
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 기술과학 번역기의 성능 향상을 위한 학습용 데이터
㈜아키아카 - 방송콘텐츠 한국어-아시아어 통·번역 음성 데이터
공공데이터포털
방송콘텐츠의 인공신경망기계번역기(Neural Machin Translation;NMT) 성능향상을 위하여 학습데이터로 활용하기 위한 한국어-아시아어 음성 및 말뭉치 데이터
포티투마루 - 한국어 SNS
공공데이터포털
한국어 구어체 텍스트 기반의 정보검색, 대화분석, 질의응답, 명령어 이해, 언어모델 학습 등의 자연어처리 AI 기술 개발을 위한 한국인의 일상대화 SNS 데이터 구축
국립국어원 - 문법성 판단 말뭉치
공공데이터포털
(버전 1.1) 한국어 예문 문법성(수용성)을 언어 사용자가 평가한 정보가 포함된 말뭉치입니다.
국립국어원 - 구어 말뭉치
공공데이터포털
(버전 1.2) 방송, 강연 등의 공적 구어 자료, 드라마 대본 등의 준구어 자료로 구성된 말뭉치입니다.