데이터셋 상세
미국
NIST Handprinted Forms and Characters - NIST Special Database 19
Special Database 19 contains NIST's entire corpus of training materials for handprinted document and character recognition. It publishes Handprinted Sample Forms from 3600 writers, 810,000 character images isolated from their forms, ground truth classifications for those images, reference forms for further data collection, and software utilities for image management and handling. there are two editions of the databases. One is the original database with the images in mis or pct format. It also includes software to open and manipulate the data. The second edition has the images all in PNG format.
연관 데이터
동양시스템즈 - 다양한 형태의 한글 문자 OCR
공공데이터포털
한글의 광학글자인식(OCR, Optical Character Recognition) 알고리즘 성능 개선을 위한 다양한 형태(테이블 내 텍스트, 숫자, 문장부호 등 포함)의 한글 글자체(인쇄체 + 손글씨) 데이터셋 구축
쇼우테크 - 대용량 손글씨 OCR 데이터
공공데이터포털
산업 및 실생활에서 사용되는 각종 신청서등에 포함된 다양한 한글 손글씨를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 다양한 손글씨 원문을 수집하고 작성된 손글씨에 대한 바운딩박스와 라벨링 정보로 구성된 JSON 파일과 해당 손글씨 원문이미지 파일의 쌍으로 구성된 OCR AI 학습용 데이터셋
누리IDT - 고서 한자 인식 (OCR)
공공데이터포털
고서 한자 이미지를 인식하기 위한 이미지 데이터
쇼우테크 - 고서 한자 인식 OCR 데이터
공공데이터포털
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋
ThermoLit: NIST Literature Report Builder for Thermophysical and Thermochemical Property Measurements
공공데이터포털
This web application provides free and open access to literature information contained in the NIST SOURCE Data Archive, and provides an easy-to-use tool for generation of a NIST Literature Report in PDF format, as required by the Journals. The tool is intended to aid researchers and reviewers in determining relevant literature sources for a given experimental measurement; however, it is not intended to replace the comprehensive literature review required by all journals, and no guarantee is made regarding completeness of the information provided. For an analysis of the comparative impact a particular measurement may have, the ThermoPlan: Experimental Planning and Coverage Evaluation Aid for Thermophysical Property Measurements web tool (http://trc.nist.gov/thermoplan/) is recommended.
국립국어원 - 글쓰기 첨삭 지원을 위한 지시문 기반 생성(인스트럭션) 말뭉치 2024
공공데이터포털
(버전 1.0) '국립국어원 글쓰기 원시 자료 말뭉치 2023(버전 1.0)'에서 다양한 글의 단위(문서, 문단, 문장)를 고려하여 글을 선별하고 진단 기준(내용, 조직, 표현)에 따라 첨삭한 말뭉치.
NIST ThermoPlan - Experimental Planning and Coverage Evaluation Aid for Thermophysical Property Measurements - SRD 167
공공데이터포털
This web application provides free and open access for the broader research community to the experimental planning utilities that are incorporated into ThermoData Engine (TDE) [J. Chem. Inf. Model. 2005, 45, 816-838]. TDE provides recommendations for the relative merit of a proposed measurement via assessment of the existing body of knowledge, including availability of experimental thermophysical property data, variable ranges studied, associated uncertainties, state of prediction methods, and parameters for deployment of prediction methods. The web applications provides utilities for the assessment of specific property measurements for pure and binary chemical systems, the broader data needs of pure systems, and recommendations for binary mixture measurements that could extend the current UNIFAC model. The primary focus of this recommendation service is molecular organic compounds. Some common inorganic and organometallic compounds are included, but, in general, polymers, radicals, ions, salt and acid solutions, metals, metal oxides, and inter-metallics are not considered. References NIST Standard Reference Data 103a and 103b.
㈜엔에이치엔다이퀘스트 - OCR 데이터(고서한자)
공공데이터포털
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋
동양시스템즈 - 공공행정문서 OCR
공공데이터포털
공공 행정 문서에 특화된 문자 인식 AI 모델을 개발하기 위한 공공 행정 문서 이미지 데이터
국립국어원 - 묵자-점자 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어 데이터(신문 기사, 온라인 게시 자료)에서 한글, 로마자, 숫자, 기호의 조합 조건을 만족하는 문장을 추출하고 점역, 교정하여 구축한 병렬 말뭉치입니다.