로그인
데이터검색
데이터맵
공모전
이용안내
통합검색
데이터셋 검색
교육분야 포털 모음
데이터맵
공모전 안내
공모전 공지사항
공모전 참여하기
공모전 수상작
공모전 문의하기
공지사항
자주묻는 질문
자료실
문의하기
데이터 검색
통합검색
데이터셋검색
교육분야 포털 모음
데이터맵
데이터맵
공모전
공모전 공지사항
공모전 참여하기
공모전 수상작
공모전 문의하기
이용안내
자료실
공지사항
문의하기
자주묻는 질문
공모전 수상작
공모전 공지사항
공모전 문의하기
홈
데이터검색
데이터셋 검색
데이터셋 상세
디지털 산업혁신 빅데이터 플랫폼
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수 완료
데이터 정보
데이터 포털
디지털 산업혁신 빅데이터 플랫폼
META URL
https://www.bigdata-dx.kr/product/DX222300020001
라이선스
cc-by
비용
제공기관
관리부서
데이터
랜딩 페이지
연관 데이터
인사이트베슬 - 문학/소설 한영 말뭉치 코퍼스 데이터 9만 건
공공데이터포털
실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료,,
인사이트베슬 - 문학/소설 한영 말뭉치 코퍼스 데이터 2.5만 건 [문학2호]
공공데이터포털
실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료
솔트룩스 - 온라인 구어체 말뭉치 데이터
공공데이터포털
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터
공공데이터포털
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
트위그팜 - AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축
공공데이터포털
• 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터 • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터
㈜ 트위그팜 - 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터
공공데이터포털
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 일상생활 및 구어체 번역기의 성능 향상을 위한 학습용 데이터
솔트룩스이노베이션 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공
한국환경산업기술원 환경산업기술원 챗봇 대화세트 구성
공공데이터포털
본 데이터는 환경산업기술원에서 구축 중인 챗봇의 질문답변 세트(21.9.19 기준)의 질의응답, 동작 등을 정리한 내용입니다.
㈜ 트위그팜 - 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터
공공데이터포털
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한중, 한일 말뭉치 • 방송 콘텐츠 분야 번역기의 성능 향상을 위한 학습용 데이터
목록