로그인
데이터검색
데이터맵
공모전
이용안내
통합검색
데이터셋 검색
교육분야 포털 모음
데이터맵
공모전 안내
공모전 공지사항
공모전 참여하기
공모전 수상작
공지사항
통계이야기
자주묻는 질문
자료실
문의하기
데이터 검색
통합검색
데이터셋검색
교육분야 포털 모음
데이터맵
데이터맵
공모전
공모전 공지사항
공모전 참여하기
공모전 수상작
이용안내
공지사항
통계이야기
자주묻는 질문
자료실
문의하기
공모전 공지사항
공모전 수상작
홈
데이터검색
데이터셋 검색
데이터셋 상세
AI 허브
㈜유핏 - 동남아시아 고품질 OCR 데이터
태국어와 캄보디아어(크메르어)의 복잡한 문자 구조를 정밀하게 인식할 수 있도록 구축된 고품질 OCR 데이터는 저자원 언어 환경에서 문서 디지털화와 병기 번역, LLM 학습까지 가능한 핵심적인 역할을 하도록 구축함.
데이터 정보
데이터 포털
AI 허브
META URL
https://www.aihub.or.kr/aihubdata/data/view.do?pageIndex=1&currMenu=115&topMenu=100&srchOptnCnd=OPTNCND001&srchDetailCnd=DETAILCND001&srchOrder=ORDER001&srchPagePer=20&aihubDataSe=data&dataSetSn=71956
라이선스
cc-zero
비용
무료
제공기관
수행기관(주관) : ㈜유핏
관리부서
데이터
25년 활용 가이드라인_26-31 동남아시아 고품질 OCR 데이터_v1.2.hwp
2025 데이터설명서_26-31 동남아시아 고품질 OCR 데이터.hwp
저작도구 설명서 다운로드
연관 데이터
국립국어원 - 한국어-캄보디아 크메르어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 캄보디아 크메르어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-캄보디아 크메르어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 캄보디아 크메르어로 번역하여 구성한 병렬 말뭉치입니다.
㈜엔에이치엔다이퀘스트 - OCR 데이터(공공)
공공데이터포털
일반 국민 생활과 밀접한 관련성이 높은 지방자치단체 (창원특례시, 김해시)와 외교 용어가 다수 포함되어있는 외교사료관 공공문서를 수집, 가공하여, 문서에 포함되어있는 다양한 문자 유형(인쇄체, 타자체, 수기 등)의 OCR 문자 인식 기술개발을 위한 인공지능 학습용 데이터셋
쇼우테크 - 대용량 손글씨 OCR 데이터
공공데이터포털
산업 및 실생활에서 사용되는 각종 신청서등에 포함된 다양한 한글 손글씨를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 다양한 손글씨 원문을 수집하고 작성된 손글씨에 대한 바운딩박스와 라벨링 정보로 구성된 JSON 파일과 해당 손글씨 원문이미지 파일의 쌍으로 구성된 OCR AI 학습용 데이터셋
㈜엔에이치엔다이퀘스트 - OCR 데이터(고서한자)
공공데이터포털
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋
㈜딥로딩 - 베트남어 말뭉치 데이터
공공데이터포털
- 베트남어의 언어 이해와 자연어 생성 능력을 위해 베트남에 대한 사회, 정치, 경제, 문화/예술, 역사 및 산업분야 등 다양한 주제와 분야에 대한 텍스트 데이터를 수집/정제.가공하여 인공지능(AI) 학습용 데이터셋 구축
국립국어원 - 한국어-베트남어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 베트남어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-태국어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 태국어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-베트남어 병렬 말뭉치 2024
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 베트남어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 한국어-태국어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 필리핀 태국어로 번역하여 구성한 병렬 말뭉치입니다.
목록