데이터셋 상세
AI 허브
㈜엔에이치엔다이퀘스트 - OCR 데이터(고서한자)
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋
연관 데이터
쇼우테크 - 고서 한자 인식 OCR 데이터
공공데이터포털
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋
쇼우테크 - 대용량 손글씨 OCR 데이터
공공데이터포털
산업 및 실생활에서 사용되는 각종 신청서등에 포함된 다양한 한글 손글씨를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 다양한 손글씨 원문을 수집하고 작성된 손글씨에 대한 바운딩박스와 라벨링 정보로 구성된 JSON 파일과 해당 손글씨 원문이미지 파일의 쌍으로 구성된 OCR AI 학습용 데이터셋
㈜유핏 - 동남아시아 고품질 OCR 데이터
공공데이터포털
태국어와 캄보디아어(크메르어)의 복잡한 문자 구조를 정밀하게 인식할 수 있도록 구축된 고품질 OCR 데이터는 저자원 언어 환경에서 문서 디지털화와 병기 번역, LLM 학습까지 가능한 핵심적인 역할을 하도록 구축함.
동양시스템즈 - 다양한 형태의 한글 문자 OCR
공공데이터포털
한글의 광학글자인식(OCR, Optical Character Recognition) 알고리즘 성능 개선을 위한 다양한 형태(테이블 내 텍스트, 숫자, 문장부호 등 포함)의 한글 글자체(인쇄체 + 손글씨) 데이터셋 구축
에이치씨아이플러스(주) - 한국 전통 문양 데이터
공공데이터포털
- 국가유산진흥원, 국립중앙박물관 등에서 제공한 데이터와 서울, 경기도에서 직접 활영한 원천유물데이터에서 건축, 문화재, 생활소품 등에 이용되는 한국 전통 문양 이미지 생성을 위한 초거대 AI 학습용 데이터 구축 - 객체 및 문양 이미지 데이터 24,536장, 문양 이미지 데이터 24,536장, 한글 이미지 캡션 278,803 문장(2,726,576 어절), 영어 이미지 캡션 262,024 문장(3,737,512 어절) 구축
서울특별시 한양도성 각자성석 정보(일문)
공공데이터포털
서울한양도성 성벽에 일부 존재하는 각자성석(기록이 적힌 성돌) 유적정보입니다.(일문)제목, 코스, 소개, 거리, 고도등 정보를 제공합니다.
국립국어원 - 묵자-점자 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어 데이터(신문 기사, 온라인 게시 자료)에서 한글, 로마자, 숫자, 기호의 조합 조건을 만족하는 문장을 추출하고 점역, 교정하여 구축한 병렬 말뭉치입니다.
국립국어원 - 한국어-힌디어 병렬 말뭉치 2021
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 힌디어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
동양시스템즈 - 공공행정문서 OCR
공공데이터포털
공공 행정 문서에 특화된 문자 인식 AI 모델을 개발하기 위한 공공 행정 문서 이미지 데이터