데이터셋 상세
디지털 산업혁신 빅데이터 플랫폼
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수 완료
데이터 정보
연관 데이터
인사이트베슬 - 문학/소설 한영 말뭉치 코퍼스 데이터 9만 건
공공데이터포털
실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료,,
인사이트베슬 - 문학/소설 한영 말뭉치 코퍼스 데이터 2.5만 건 [문학2호]
공공데이터포털
실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터
공공데이터포털
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
트위그팜 - AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축
공공데이터포털
• 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터 • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터
㈜ 트위그팜 - 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터
공공데이터포털
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 일상생활 및 구어체 번역기의 성능 향상을 위한 학습용 데이터
솔트룩스이노베이션 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
한국환경산업기술원 환경산업기술원 챗봇 대화세트 구성
공공데이터포털
본 데이터는 환경산업기술원에서 구축 중인 챗봇의 질문답변 세트(21.9.19 기준)의 질의응답, 동작 등을 정리한 내용입니다.
㈜ 트위그팜 - 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한중, 한일 말뭉치 • 방송 콘텐츠 분야 번역기의 성능 향상을 위한 학습용 데이터