로그인
데이터검색
데이터맵
공모전
이용안내
통합검색
데이터셋 검색
교육분야 포털 모음
데이터맵
공모전 안내
공모전 공지사항
공모전 참여하기
공모전 수상작
공지사항
통계이야기
자주묻는 질문
자료실
문의하기
데이터 검색
통합검색
데이터셋검색
교육분야 포털 모음
데이터맵
데이터맵
공모전
공모전 공지사항
공모전 참여하기
공모전 수상작
이용안내
공지사항
통계이야기
자주묻는 질문
자료실
문의하기
공모전 공지사항
공모전 수상작
홈
데이터검색
데이터셋 검색
데이터셋 상세
AI 허브
쇼우테크 - 고서 한자 인식 OCR 데이터
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋
데이터 정보
데이터 포털
AI 허브
META URL
https://www.aihub.or.kr/aihubdata/data/view.do?pageIndex=30&currMenu=115&topMenu=100&srchOptnCnd=OPTNCND001&srchDetailCnd=DETAILCND001&srchOrder=ORDER001&srchPagePer=20&aihubDataSe=data&dataSetSn=603
라이선스
cc-zero
비용
무료
제공기관
수행기관(주관) : 쇼우테크
관리부서
데이터
랜딩 페이지
데이터설명서_1-33-054_고서한자.pdf
★21년도 인공지능 학습용 데이터 구축 가이드라인_(고서한자)_v1.0.0.pdf
AI 모델 사용매뉴얼.pdf
AI 모델 소스코드.tar
연관 데이터
쇼우테크 - 대용량 손글씨 OCR 데이터
공공데이터포털
산업 및 실생활에서 사용되는 각종 신청서등에 포함된 다양한 한글 손글씨를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 다양한 손글씨 원문을 수집하고 작성된 손글씨에 대한 바운딩박스와 라벨링 정보로 구성된 JSON 파일과 해당 손글씨 원문이미지 파일의 쌍으로 구성된 OCR AI 학습용 데이터셋
㈜엔에이치엔다이퀘스트 - OCR 데이터(고서한자)
공공데이터포털
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋
㈜엔에이치엔다이퀘스트 - OCR 데이터(옛한글)
공공데이터포털
옛한글을 자동으로 인식 및 판독하는, 인공지능 모델 개발에 필요한 대규모 OCR 데이터. 고문헌 및 고문서의 옛한글 이미지와 해당 이미지 내 개별 글자들을 바운딩 박스로 그리고 해당 영역 내 라벨링 정보로 구성된 JSON 파일을 쌍으로 구성하여 글자 수 기준 1천만 자 이상의 규모로 구축.
㈜엔에이치엔다이퀘스트 - OCR 데이터(공공)
공공데이터포털
일반 국민 생활과 밀접한 관련성이 높은 지방자치단체 (창원특례시, 김해시)와 외교 용어가 다수 포함되어있는 외교사료관 공공문서를 수집, 가공하여, 문서에 포함되어있는 다양한 문자 유형(인쇄체, 타자체, 수기 등)의 OCR 문자 인식 기술개발을 위한 인공지능 학습용 데이터셋
동양시스템즈 - 다양한 형태의 한글 문자 OCR
공공데이터포털
한글의 광학글자인식(OCR, Optical Character Recognition) 알고리즘 성능 개선을 위한 다양한 형태(테이블 내 텍스트, 숫자, 문장부호 등 포함)의 한글 글자체(인쇄체 + 손글씨) 데이터셋 구축
누리IDT - 고서 한자 인식 (OCR)
공공데이터포털
고서 한자 이미지를 인식하기 위한 이미지 데이터
국립국어원 - 맞춤법 교정 말뭉치 2021
공공데이터포털
(버전 1.0) 온라인에서 나타나는 언어 표현을 한국어 처리 도구가 분석할 수 있는 수준으로 교정한 말뭉치입니다.
국립국어원 - 개체명 사전 2022
공공데이터포털
(버전 1.0) 개체명 및 개체 연결 정보가 부착된 말뭉치에서 개체 표현, 개체 유형, 지식 베이스 연결 정보를 추출하여 구축한 자료입니다.
㈜유핏 - 동남아시아 고품질 OCR 데이터
공공데이터포털
태국어와 캄보디아어(크메르어)의 복잡한 문자 구조를 정밀하게 인식할 수 있도록 구축된 고품질 OCR 데이터는 저자원 언어 환경에서 문서 디지털화와 병기 번역, LLM 학습까지 가능한 핵심적인 역할을 하도록 구축함.
국립국어원 - 개체명 사전 2021
공공데이터포털
(버전 1.1) 개체명 및 개체 연결 정보가 부착된 말뭉치에서 개체 표현, 개체 유형, 지식베이스 연결 정보를 추출하여 구축한 자료입니다.
목록