데이터셋 상세
유통 빅데이터
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료,
데이터 정보
연관 데이터
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
공공데이터포털
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수 완료
인사이트베슬 - 문학/소설 한영 말뭉치 코퍼스 데이터 9만 건
공공데이터포털
실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료,,
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터
공공데이터포털
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
인사이트베슬 - 문학/소설 한영 말뭉치 코퍼스 데이터 2.5만 건 [문학2호]
공공데이터포털
실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료
경기도 양주시 영상정보 현황
공공데이터포털
경기도 양주시_영상정보 현황 데이터는 양주시 홈페이지에 등록된 각종 영상 자료의 메타정보를 수록한 데이터셋이이며, 총 1,546행으로 구성되어 있으며, 영상제목, 영상썸네일파일명, 영상파일명 등의 항목을 포함합니다.데이터는 ‘양주뉴스’, ‘홍보영상’, ‘시민참여단 모집’ 등 다양한 주제의 영상을 라벨링하여 제공하며, 영상별로 썸네일 이미지와 실제 영상 파일명이 함께 기록되어 있어 시각적 확인과 활용이 용이하다. 이를 통해 시민들은 정책 홍보, 시정 안내, 문화 행사 등 다양한 주제의 영상자료를 보다 체계적으로 열람할 수 있습니다. 또한 행정기관은 이를 기반으로 영상 기록을 관리하고, 공공 홍보 활동 및 대시민 서비스 제공에 활용할 수 있습니다.특히 멀티미디어 기반의 행정정보 제공을 통해 시민과의 소통을 강화하고, 도시 이미지 제고 및 참여 유도에 기여하며 이 데이터는 행정자료뿐 아니라 미디어 연구, 홍보 전략 수립, 디지털 기록 관리에도 중요한 기초자료입니다
한국환경산업기술원 환경산업기술원 챗봇 대화세트 구성
공공데이터포털
본 데이터는 환경산업기술원에서 구축 중인 챗봇의 질문답변 세트(21.9.19 기준)의 질의응답, 동작 등을 정리한 내용입니다.
KDX한국데이터거래소 - AI 학습용 데이터 구축용 원천데이터 - 보도 MBN종합뉴스 2016년
공공데이터포털
대용량 동영상 콘텐츠 AI 원천 데이터 MBN 보도, 교양, 예능 원천 데이터를 활용하여 인공지능 학습용 테이터 구축 할 수 있게 객체 별 동영상 제공,,,방송 동영상,- 방송 동영상은 성적이거나 폭력적인 영상이 상대적으로 적으며 방송용 카메라를 활용해 전문 카메라맨이 촬영한 고품질 동영상으로 정제 및 라벨링이 쉬움,- 방송 동영상은 매일 제작되어 그 양이 방대하며 특히 모바일 기기가 활성화되기 전의 과거를 가장 많이 담고 있음,,보도 동영상,- 현실성: 보도 동영상은 전혀 가공하지 않은 실제 동영상으로 실제 상황 속 영상인식의 정확도를 높이는데 활용될 수 있음,- 포괄성: 보도 동영상은 정치, 경제, 사회, 문화, 국제 등 세계 전 범위의 객체(인물, 동식물, 인공물, 지형 등) 및 상황(시간, 장소, 사건 등) 사회적으로 중요한 정보를 일 단위로 포괄적으로 담고 있음,- 다양성: 뉴스의 개념 정의상 과거와 구분되는 새로운 객체와 상황을 담는 것이 원칙으로 중복성은 낮고 다양성은 높음,- 정확성: 보도 동영상은 대부분 날짜 및 대본과 함께 보존되어 라벨링한 객체와 상황에 대한 정확한 정보를 확인할 수 있음,- 시계열적 변화: 보도 동영상은 동일 객체나 관련 상황이라고 할지라도 시계열상의 변화를 담고 있어 시간에 따른 인물, 장소 등의 변화를 담고 있음,,활용,-복합쇼핑단지와 같은 대규모 다중이용시설에서 수집된 각종 영상 데이터를 이용해 고객의 프로파일 정보 및 이동경로 파악에 활용,-특정 지역의 유동인구 분석, 혼잡도 분석 등을 통한 마케팅 활용, 안전지역 설계 등,-단순 방범용으로 활용되던 CCTV 영상을 분석해 범죄 예방 및 치안 계획 수립, 보안 시스템 구축 등으로 활용,-스포츠 경기 영상 속 선수들의 움직임을 분석해, 선수별 운동량 및 전술의 적정성 파악 등의 각종 지표로 활용 가능,
한국딥러닝(주) - 자연 발화 동영상-인체 3D 포즈 데이터
공공데이터포털
● 19-34. 자연 발화 동영상 - 인체 3D 포즈 데이터 - 모션 및 포즈 관련 디지털 콘텐츠 제작과 3D 애니메이션 분야에서 인공지능 활용을 위한 [자연발화 동영상] 및 [발화 음성 데이터] 각 120,000건, [표정, 포즈 모션 데이터] 각 12,000건 또한 [표정, 포즈 3D 스캐닝 데이터] 각 360,000건과 [오디오 스크립트 및 디스크립션] 232,094건 구성
MBN 동영상 원천 데이터 I
공공데이터포털
대용량 동영상 콘텐츠 AI 원천 데이터 MBN 보도, 교양, 예능 원천 데이터를 활용하여 인공지능 학습용 테이터 구축 할 수 있게 객체 별 동영상 제공,인공지능 학습용 데이터 (대용량 동영상 콘텐츠 AI데이터),,,,,,보도 - MBN 종합뉴스, 2016년부터 ~ 2019년까지 / 경제노트 (객체 : 경제, 국제, 문화, 부동산, 사회, 스포츠, 정치, 증권으로 분류),교양 - 천기누설, 나는자연인이다, 행복한가, 안전대한민국 (객체 : 건강, 다큐, 주거, 안전으로 분류),예능 - 우리집에해피가왔다, 엄지의제왕, 기막힌동물원, 111뷰티, 카트쇼, 123요리, 알토란, 보이스퀸, 역사드라마쑈왕과여자 (객체 : 강아지, 건강, 동물, 뷰티, 상품, 요리, 음식, 음악, 한복으로 분류),,방송 동영상,- 방송 동영상은 성적이거나 폭력적인 영상이 상대적으로 적으며 방송용 카메라를 활용해 전문 카메라맨이 촬영한 고품질 동영상으로 정제 및 라벨링이 쉬움,- 방송 동영상은 매일 제작되어 그 양이 방대하며 특히 모바일 기기가 활성화되기 전의 과거를 가장 많이 담고 있음,,보도 동영상,- 현실성: 보도 동영상은 전혀 가공하지 않은 실제 동영상으로 실제 상황 속 영상인식의 정확도를 높이는데 활용될 수 있음,- 포괄성: 보도 동영상은 정치, 경제, 사회, 문화, 국제 등 세계 전 범위의 객체(인물, 동식물, 인공물, 지형 등) 및 상황(시간, 장소, 사건 등) 사회적으로 중요한 정보를 일 단위로 포괄적으로 담고 있음,- 다양성: 뉴스의 개념 정의상 과거와 구분되는 새로운 객체와 상황을 담는 것이 원칙으로 중복성은 낮고 다양성은 높음,- 정확성: 보도 동영상은 대부분 날짜 및 대본과 함께 보존되어 라벨링한 객체와 상황에 대한 정확한 정보를 확인할 수 있음,- 시계열적 변화: 보도 동영상은 동일 객체나 관련 상황이라고 할지라도 시계열상의 변화를 담고 있어 시간에 따른 인물, 장소 등의 변화를 담고 있음,,활용,-복합쇼핑단지와 같은 대규모 다중이용시설에서 수집된 각종 영상 데이터를 이용해 고객의 프로파일 정보 및 이동경로 파악에 활용,-특정 지역의 유동인구 분석, 혼잡도 분석 등을 통한 마케팅 활용, 안전지역 설계 등,-단순 방범용으로 활용되던 CCTV 영상을 분석해 범죄 예방 및 치안 계획 수립, 보안 시스템 구축 등으로 활용,-스포츠 경기 영상 속 선수들의 움직임을 분석해, 선수별 운동량 및 전술의 적정성 파악 등의 각종 지표로 활용 가능,
KDX한국데이터거래소 - AI 학습용 데이터 - 인물사전 (기타)
공공데이터포털
AI 원천 데이터, 이미지 셋 MK / MBN 보도, 교양, 예능 원천 데이터를 활용하여 인공지능 학습용 테이터 구축 할 수 있게 데이터 제공,인물사전 - 기타,,,