데이터셋 상세
모두의 말뭉치
국립국어원 - 한국어-태국어 병렬 말뭉치 2022
(버전 1.0) 한국어 문어와 구어 자료를 필리핀 태국어로 번역하여 구성한 병렬 말뭉치입니다.
데이터 정보
연관 데이터
국립국어원 - 한국어-베트남어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 베트남어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-인도네시아어 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 인도네시아어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-캄보디아 크메르어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 캄보디아 크메르어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 국어 역사 말뭉치
공공데이터포털
(버전 1.0) 15세기 한글 창제 이후부터 20세기 초기까지 한글로 기로된 문헌자료 원시 말뭉치입니다.
국립국어원 - 묵자-점자 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어 데이터(신문 기사, 온라인 게시 자료)에서 한글, 로마자, 숫자, 기호의 조합 조건을 만족하는 문장을 추출하고 점역, 교정하여 구축한 병렬 말뭉치입니다.
한국전자통신연구원 다국어 5종의 음성과 영어대역문장 정보
공공데이터포털
베트남어, 태국어, 인도네시아어, 말레이어, 아랍어 음성 40만 발화
NHN다이퀘스트 - 한국인 외래어 발화
공공데이터포털
통역과 번역의 과정 없이 바로 한국어 음성 또는 텍스트 데이터에 맵핑할 수 있는 외래어 발화 음성 데이터
한국외국어대학교 - 한-영 및 한-중 음성발화 데이터
공공데이터포털
다국어 음성 합성을 위한 같은 의미의 한국어-영어/ 한국어-중국어 AI 학습용 데이터 구축
㈜아르스프락시아 - 인도네시아어 말뭉치 데이터
공공데이터포털
- 한국과 인도네시아어 맥락을 포함한 인도네시아어 말뭉치 데이터로 다국어로 학습된 초거대 AI 학습 시 한국과 인도네시아 관련 맥락의 이해를 돕는 2억 토큰으로 이루어진 말뭉치입니다.
솔트룩스이노베이션 - 다국어 구어체 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공