데이터셋 상세
AI 허브
미니게이트 - 한국어-다국어 번역 말뭉치 (인문학)
인문학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 인문학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터
연관 데이터
미니게이트 - 한국어-다국어 번역 말뭉치(기초과학)
공공데이터포털
기초과학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 기초과학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터
미니게이트 - 한국어-다국어(영어 제외) 번역 말뭉치(기술과학)
공공데이터포털
기술과학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 기술과학 분야 다국어(중국어, 일본어) 번역 말뭉치 데이터
솔트룩스이노베이션 - 다국어 구어체 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
국립국어원 - 묵자-점자 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어 데이터(신문 기사, 온라인 게시 자료)에서 한글, 로마자, 숫자, 기호의 조합 조건을 만족하는 문장을 추출하고 점역, 교정하여 구축한 병렬 말뭉치입니다.
솔트룩스이노베이션 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
(주)에버트란 - 방송콘텐츠 한국어-영어 통번역 음성 데이터
공공데이터포털
- 인공지능 학습용 다국어 방송콘텐츠 번역 말뭉치 구축 방송 콘텐츠 분야의 영어, 스페인어, 러시아어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 통·번역 데이터 - 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용 한-영어/스페인어,러시아어 통·번역 음성 및 텍스트 pair 데이터
국립국어원 - 한국어-베트남어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 베트남어로 번역하여 구성한 병렬 말뭉치입니다.
(주)에버트란 - 방송콘텐츠 한국어-영어 번역 말뭉치
공공데이터포털
- 인공지능 학습용 다국어 방송콘텐츠 번역 말뭉치 구축 방송 콘텐츠 분야의 영어, 스페인어, 러시아어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 통·번역 데이터 - 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용 한-영어/스페인어,러시아어 통·번역 음성 및 텍스트 pair 데이터
㈜나라지식정보 - 일반상식 문장 생성 평가 데이터
공공데이터포털
■ 기계가 생성한 문장과 인간이 생성한 문장을 다섯 가지 기준에 따라 평가함으로써 향후 AI가 생성한 문장을 AI가 검증할 수 있도록 하는 데이 ■ 한국어 일반상식 문장 평가 과제 중 세 번째 데이터로서 두 번째 데이터(제2과제 데이터)에서 제작한 문장에 대해 사람이 만든 문장과 기계가 생성한 문장을 네 가지 속성*에 따라 3점 리커트 척도로 채점한 점수를 기술 *채점 속성 : 문법성, 사실성, 유창성, 다양성
트위그팜 - 한국어-영어 번역 말뭉치(기술과학)
공공데이터포털
기술과학(인공지능, 빅데이터, IT, SNS, 의학, 특허 등) 분야 등 한-영 번역 정확도가 상대적으로 낮은 분야의 데이터 구축을 통해 AI 기반 번역 기술 개발에 활용할 수 있는 학습 데이터셋을 구축하여 보다 원활한 기술과학 분야 관련 정보 소통 도모