데이터셋 상세
AI 허브
주식회사 테스트웍스 - AI 교관 데이터
군사 교범/교수안/CBT를 기반으로 구축한 교육자료 데이터 50,000건 이상 및 질의응답 데이터 12,000건 이상의 텍스트데이터와 해군의 문어/답어로 구축한 100시간 이상(100,000건 이상)의 음성데이터로 구성
연관 데이터
심심이㈜ - AI응답 결과에 대한 품질 평가 데이터
공공데이터포털
- 요약, 질의 응답, 대화 시스템 평가 등 자연어 생성 테스크를 평가할 수 있는 체계적이고 신뢰할 만한 AI 응답 평가 지표 제시하는 데이터
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
공공데이터포털
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수 완료
한국과학기술정보연구원 - 한국어 대화
공공데이터포털
소상공인 및 공공 민원 10개 분야에 대한 50만 건 이상의 대화를 제공하는 자연어 데이터 제공
국립국어원 - 일상 대화 음성 말뭉치 2023
공공데이터포털
(버전 1.0) 일상 대화의 음성(PCM, WAV 파일)과 전사 자료로 구성된 말뭉치입니다.
한국산업인력공단 과정평가형일학습병행 출제 관련 정보 서비스
공공데이터포털
페이지(페이지 번호, 페이지당 데이터 수), 제공형태(json, xml)별 시행계획명, 종목, 인증기준버전, 시험시작일자, 부, 지참공구등의 정보를 제공하는 "과정평가형일학습병행 출제 관련 정보" 서비스로 "과정평가형, 일학습병행 정보 조회" API 서비스 중 하나
한국산업인력공단 과정평가형일학습병행 설문 관련 정보 조회 서비스
공공데이터포털
페이지(페이지 번호, 페이지당 데이터 수), 제공형태(json, xml) 별 제목, 문항수, 설문자수, 당첨자수 등의 정보를 제공하는 "과정평가형일학습병행 설문 관련 정보" 서비스로 "과정평가형, 일학습병행 정보 조회" API 서비스 중 하나
㈜윤즈정보개발 - 법률/규정 텍스트 분석 데이터 (고도화)- 상황에 따른 판례 데이터
공공데이터포털
- 학계와 산업계의 법률 자연어처리 및 인공지능 연구와 기술 개발에 필요한 60,000건 이상의 판례 데이터를 라벨링한 학습용 데이터를 구축 - 인공지능 학습에서 판례 데이터의 비율 분포를 실제 비율과 유사하도록 고른 비율로 수집하고 카테고리별 2,000건 이상이 되도록 데이터를 구성 - 활용도가 높은 판례 데이터를 수집하고 판례의 주요 내용을 추출요약하고, 질의응답 셋을 작성, 용어 정보(키워드)를 라벨링하여 인공지능 학습에 도움이 되는 데이터를 구축