데이터셋 상세
AI 허브
㈜타임게이트 - 공공분야 고객응대 데이터
공공분야 6개 클래스(문화/관광, 보건/복지, 도시/교통, 전자상거래, 환경, 우편) 3,300시간 고객 응대 음성 데이터 수집 및 감정·의도 태깅 및 요약문 등으로 이루어진 학습데이터 구축
연관 데이터
㈜타임게이트 - 민간분야 고객 상담 데이터
공공데이터포털
민간분야 5개 클래스(교통/차량, 금융, 보험, 생활/패션, 의료/보건) 3,300시간 고객 상담 음성 데이터 수집 및 감정·의도 태깅 및 요약문 등으로 이루어진 학습데이터 구축 ※ 의료/보건 클래스의 경우, 개인정보/민감정보 보호를 위해 시나리오 기반 음성데이터 수집
㈜솔트룩스 - 전문분야 심층인터뷰 데이터
공공데이터포털
ㅇ인공지능 요약 서비스와 오탈자 교정 서비스 위한 전문분야 심층인터뷰 음성인식 데이터 확보 ㅇ데이터 기반 지능화 혁신서비스 확산, AI서비스 창출을 위한 유효성, 활용성 검증된 학습 데이터 모델 구축 ㅇ전문분야 심층인터뷰 데이터, 15개 이상 분류의 2,000시간 구축
나라지식정보 - 공공 민원 상담 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
단답형 7천쌍, 서술형 3천 쌍으로 된 공공 분야 민원 상담 텍스트 데이터 10,182건 수집하여 분류, 요약, 질의 응답 등 3가지 유형의 Instruction Tuning Data 가공 구축
한국과학기술정보연구원 - 한국어 대화
공공데이터포털
소상공인 및 공공 민원 10개 분야에 대한 50만 건 이상의 대화를 제공하는 자연어 데이터 제공
포티투마루 - 민원(콜센터) 질의-응답 데이터
공공데이터포털
콜센터(민원) 업무의 효율호를 위해 AI 기술을 활용한 ICC(Intelligent Contact Center) 관련 기술 개발에 활용할 수 있는 상담 내역 질의응답 학습데이터셋 구축
주식회사 에프에스 - 시간 표현 탐지 데이터
공공데이터포털
본 과제는 텍스트 자료에서 시간표현, 사건, 시간 관계를 탐지하는 인공지능 모델의 학습용 데이터 셋 구축을 목적으로 함. - 뉴스, 대화, 역사, 스포츠 등 시간 정보가 존재하는 문서에서 사건의 발생 시각을 탐지, AI가 자동으로 이에 관한 지식을 추출하여 지능형 질의응답 서비스 등을 가능하게 하는 학습데이터
(재)전북테크노파크 - 복지 분야 콜센터 상담데이터
공공데이터포털
복지분야 콜센터 상담 데이터 수집을 통해 관련 서비스 모델 활용에 적합한 AI 데이터셋 구축
(주)티맥스엔터프라이즈 - 저음질 전화망 음성인식 데이터
공공데이터포털
전화망 환경을 모두 포함한 실제 상담 환경에서 발생하는 다양한 잡음을 포함한 저음질 전화망 음성 데이터 및 이에 매치되는 전사 텍스트 데이터 (총 6500시간)
나라지식정보 - 민간 민원 상담 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
1건당 500글자 이상, 최소 3턴 이상의 질의·답변으로 구성된 민간 민원 상담 텍스트 데이터 1만 건 이상(12,303건)을 수집하여 분류, 요약, 질의응답 유형의 Instruction Tuning Data 구축
시흥도시공사 대표 홈페이지 설문조사현황
공공데이터포털
시흥도시공사에서 내부직원, 시흥시민, 대국민 소통을 위하여 설문조사를 추진한 현황을 공개하는 데이터 입니다. 혁신, 정보시스템 만족도 설문 조사 등 분야별 설문조사 또는 만족도 조사를 수행하고 있습니다.