데이터셋 상세
미국
MESH
Ontology for use in Phenotyping Natural Language Processing (NLP)
데이터 정보
연관 데이터
RxNorm
공공데이터포털
Ontology for use in Phenotyping Natural Language Processing (NLP)
NLP-Driven Microscopy Ontology Development - Raw data DOIs
공공데이터포털
This dataset contains the DOIs of the corpus, used for the natural language processing analysis described in the article of the same title. The DOIs all point to articles published in the Microscopy and Microanalysis conference proceeding, spanning 2002 through 2019.
Meta Learning Paper Supplemental Code
공공데이터포털
Meta learning with LLM: supplemental code for reproducibility of computational results for MLT and MLT-plus-TM. Related research paper: "META LEARNING WITH LANGUAGE MODELS: CHALLENGES AND OPPORTUNITIES IN THE CLASSIFICATION OF IMBALANCED TEXT", A. Vassilev, H. Jin, M. Hasan, 2023 (to appear on arXiv).All code and data is contained in the zip archive arxiv2023.zip, subject to the licensing terms shown below. See the Readme.txt contained there for detailed explanation how to unpack and run the code. See also requirements.txt for the necessary depedencies (libraries needed). This is not a dataset, but only python source code.
트위그팜 - AI허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축 (2023)
공공데이터포털
- 번역 메모리(TM)로 활용할 AI허브 공개 데이터의 정제•검수 데이터 - 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터
국립국어원 - 일상 대화 음성 말뭉치 2022
공공데이터포털
(버전 1.0) 일상 대화의 음성(PCM 파일)과 전사 자료로 구성된 말뭉치입니다.
KDX한국데이터거래소 - 키워드별 기사 KDX 데이터
공공데이터포털
매경미디어그룹 MBN 방송 텍스트 데이터를 AI 머신러닝에 활용 할 수 있게 제공 매일경제신문 및 MBN 뉴스를 형태소 분리 가공하여 주제어 기준으로 제공 합니다.
Code used to produce terms list in the work "NLP-Driven Electron Microscopy Ontology Development"
공공데이터포털
This is a collection of code written by Maurice Curran that was used to process the Microscopy and Microanalysis conference proceeding corpus into word products described in the publication "NLP-Driven Electron Microscopy Ontology Development". The scripts are written in Python, to be used in the following order:1. SettingUpTextFiles.py and CopyingText.py to get the raw text files; 2. SentenceConversion.py; 3. reference_remover.py; 4. testing.py and testingavg.py; 5. SentenceCreator.py; 6. matscholar_model.py to get matscholar tags; 7. training_model_gensim.py to get gensim model;8. word2vecscript.py and gensim_visual.py;
트위그팜 - AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축
공공데이터포털
• 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터 • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터
MBN - AI 학습용 원시데이터 - 충무로 와글와글
공공데이터포털
매경미디어그룹 MBN방송 동영상 데이터로 AI 인공지능 학습 활용 및 연구 개발 할 수 있는 원시 데이터 및 메타 데이터 셋을 제공 합니다. (동영상 가격 및 제공 프로토콜은 협의),,
MBN - AI 학습용 원시데이터 - 아침 & 매일경제
공공데이터포털
매경미디어그룹 MBN방송 동영상 데이터로 AI 인공지능 학습 활용 및 연구 개발 할 수 있는 원시 데이터 및 메타 데이터 셋을 제공 합니다. (동영상 가격 및 제공 프로토콜은 협의),,