데이터셋 상세
미국
HCPCS
Ontology for use in Phenotyping Natural Language Processing (NLP)
데이터 정보
연관 데이터
Meta Learning Paper Supplemental Code
공공데이터포털
Meta learning with LLM: supplemental code for reproducibility of computational results for MLT and MLT-plus-TM. Related research paper: "META LEARNING WITH LANGUAGE MODELS: CHALLENGES AND OPPORTUNITIES IN THE CLASSIFICATION OF IMBALANCED TEXT", A. Vassilev, H. Jin, M. Hasan, 2023 (to appear on arXiv).All code and data is contained in the zip archive arxiv2023.zip, subject to the licensing terms shown below. See the Readme.txt contained there for detailed explanation how to unpack and run the code. See also requirements.txt for the necessary depedencies (libraries needed). This is not a dataset, but only python source code.
㈜에이아이웍스 - 화질변환 영상데이터 (업사이클링)
공공데이터포털
화질변환 영상데이터를 기반으로, 요소간의 의미적 관계 파악이 가능한 데이터로 LLM의 약점을 보완하기 위해 온톨로지, RAG 로 정확도를 높이고, 휴먼 가공과 검수, 그리고 피드백 과정을 통해 언어모델의 편향이나 오류를 수정해서 활용도 높은 이미지·텍스트 기반 데이터를 구축하였습니다.
Code used to produce terms list in the work "NLP-Driven Electron Microscopy Ontology Development"
공공데이터포털
This is a collection of code written by Maurice Curran that was used to process the Microscopy and Microanalysis conference proceeding corpus into word products described in the publication "NLP-Driven Electron Microscopy Ontology Development". The scripts are written in Python, to be used in the following order:1. SettingUpTextFiles.py and CopyingText.py to get the raw text files; 2. SentenceConversion.py; 3. reference_remover.py; 4. testing.py and testingavg.py; 5. SentenceCreator.py; 6. matscholar_model.py to get matscholar tags; 7. training_model_gensim.py to get gensim model;8. word2vecscript.py and gensim_visual.py;
㈜에이아이웍스 - 융합센서 다중객체 추적 및 예측데이터 (업사이클링)
공공데이터포털
융합센서 다중객체 추적 및 예측데이터를 기반으로, 요소간의 의미적 관계 파악이 가능한 데이터로 LLM의 약점을 보완하기 위해 온톨로지, RAG 로 정확도를 높이고, 휴먼 가공과 검수, 그리고 피드백 과정을 통해 언어모델의 편향이나 오류를 수정해서 활용도 높은 이미지·텍스트 기반 데이터를 구축하였습니다.
포티투마루 - 전문분야 말뭉치
공공데이터포털
상대적으로 성능 확보가 어려운 전문 분야에 대한 자연어 처리(Natural Language Processing) 학습용 말뭉치 데이터 구축
한국전자통신연구원 언어 분석 기술 API
공공데이터포털
언어 분석 기술은 자연어 문장의 의미를 이해하기 위한 기술로, 단어의 형태와 의미 및 문장의 구조와 의미를 분석하여 지식처리를 위한 기반 기술로 활용됩니다.언어 분석을 위한 6종의 API는 HTTP 기반의 REST API 인터페이스로 JSON 포맷 기반의 입력 및 출력을 지원하며 ETRI에서 제공하는 API Key 인증을 통해 사용할 수 있는 Open API입니다. 사용자가 요청하는 분석 코드에 따라 형태소 분석, 어휘의미 분석(동음이의어 분석, 다의어 분석), 개체명 인식, 의존 구문분석, 의미역 인식 결과를 제공합니다.
㈜ 트위그팜 - 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터
공공데이터포털
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 일상생활 및 구어체 번역기의 성능 향상을 위한 학습용 데이터
국립국어원 - 묵자-점자 병렬 말뭉치 2023
공공데이터포털
(버전 1.0) 한국어 문어 데이터(신문 기사, 온라인 게시 자료)에서 한글, 로마자, 숫자, 기호의 조합 조건을 만족하는 문장을 추출하고 점역, 교정하여 구축한 병렬 말뭉치입니다.
트위그팜 - 다국어 번역 품질 평가 데이터
공공데이터포털
- 다국어 언어쌍에 대한 양방향 병렬 번역 말뭉치 데이터 - 기계 번역 품질 예측 활용을 위한 번역 품질 평가 라벨링 데이터