데이터셋 상세
AI 허브
㈜오픈유아이 - 농산어촌 전문분야 한국어-외국어 병렬 말뭉치 데이터
농산어촌 기술 및 전문용어를 전파하고 언어장벽 해소를 위해 농산어촌 관련 전문도서, 논문, 웹/저널과 작업 상황 시나리오를 기반으로 구축한 한국어 말뭉치(문어체, 구어체, 대화체) 400만 문장을 외국어 4종(베트남어, 인도네시아어, 캄보디아어(크메르어), 태국어)으로 각 400만 문장 씩 번역한 병렬 말뭉치
연관 데이터
한국문화정보원 - 전국 다국어 가이드 제공 문화시설
공공데이터포털
ㅇ 데이터 소개 - 영어, 중국어 등 다국어 가이드(오디오, 안내책자) 제공 문화시설 데이터입니다. ㅇ 활용 분야 - 전시관, 공연장 위치정보 제공 서비스 활용 - 전국 지역별 다국어 가이드 제공 문화시설 분포 현황 분석 ㅇ 데이터 출처 - 한국문화정보원 ㅇ 특이사항 - 컬럼 "최종작성일" 기준으로 구축되었기 때문에, 조회 시점 별로 정보가 상이할 수 있습니다.
㈜아르스프락시아 - 인도네시아어 말뭉치 데이터
공공데이터포털
- 한국과 인도네시아어 맥락을 포함한 인도네시아어 말뭉치 데이터로 다국어로 학습된 초거대 AI 학습 시 한국과 인도네시아 관련 맥락의 이해를 돕는 2억 토큰으로 이루어진 말뭉치입니다.
국립국어원 - 한국어-인도네시아어 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 인도네시아어로 번역하여 구성한 병렬 말뭉치입니다.
서울특별시 - 서울시 외국어 표기 정보
공공데이터포털
각종 외국어 안내표지판 제작을 위한 외국어 표기정보(행정구역, 공공기관, 자연지명, 교통, 관광문화, 쇼핑, 음식, 숙박, 의료/복지, 교육, 언론/종교, 주거시설)를 제공합니다.
한국중부발전(주) 한국중부발전(주) (AI 친화 데이터)발전용어집
공공데이터포털
한국중부발전(주)의 발전용어를 모아놓은 정보이며, 목록명은 '약어', '원어', '한글풀이'로 이루어져 있습니다.
한국외국어대학교 - 발화유형(문어, 구어, 채팅)별 기계번역 병렬 말뭉치
공공데이터포털
- 한국어 계열 기계번역의 언어별 성능, 어투, 도메인 등, 다양한 요소를 평가할 수 있도록 벤치마크 데이터셋 구축
인천광역시 남동구 발달재활 및 언어치료 기관 현황
공공데이터포털
인천광역시 남동구 발달재활 및 언어치료 기관현황에 대한 데이터로 구분, 기관명, 소재지, 전화번호, 서비스내용 항목을 제공합니다.
인천광역시 남동구 독서운동 선정 도서
공공데이터포털
인천광역시 남동구 독서운동 선정도서에 대한 데이터로 연번, 년도, 부문, 책제목, 지은이, 출판사, 내용, 데이터기준일자 항목을 제공합니다.
한국산업인력공단 외국인근로자가 자주 쓰는 외국어(인도네시아)
공공데이터포털
한국산업인력공단 외국인근로자가 자주 쓰는 외국어 정보(인도네시아어)로 외국인근로자가 자주 사용하는 인도네시아어 문장을 제공합니다.
㈜딥로딩 - 베트남어 말뭉치 데이터
공공데이터포털
- 베트남어의 언어 이해와 자연어 생성 능력을 위해 베트남에 대한 사회, 정치, 경제, 문화/예술, 역사 및 산업분야 등 다양한 주제와 분야에 대한 텍스트 데이터를 수집/정제.가공하여 인공지능(AI) 학습용 데이터셋 구축