데이터셋 상세
AI 허브
솔트룩스 - 온라인 구어체 말뭉치 데이터
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋
연관 데이터
국립국어원 - 맞춤법 교정 말뭉치 2022
공공데이터포털
(버전 1.0) 온라인 대화 자료를 대상으로 한국어 처리 도구가 분석할 수 있는 수준으로 오탈자 등을 교정한 말뭉치입니다.
한국지능정보사회진흥원 AI허브 오픈데이터 목록
공공데이터포털
본 데이터는 AI허브에서 국내외 인공지능 개발을 위해 공개한 다양한 오픈 데이터 목록을 수록하고 있습니다. 각 항목은 데이터 분류(음성, 이미지, 텍스트 등), 제목(데이터셋 명칭), 내용(데이터 구성 및 활용 목적 등 설명)으로 구성되어 있으며, 인공지능 학습용 데이터의 접근성과 활용도를 높이는 데 기여합니다. AI 기술 개발자, 연구자, 기업 등이 원하는 분야별 데이터를 효율적으로 탐색하고 활용할 수 있도록 구성되어 있으며, 데이터 품질, 구축 방식, 사용 예시 등에 대한 간략한 정보도 포함될 수 있습니다. 이 목록은 AI 생태계 전반의 개방형 데이터 전략 수립과 데이터 기반 서비스 개발에 필수적인 자료입니다.
솔트룩스 - 한국어 방언 발화(경상도)
공공데이터포털
방언(경상도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
솔트룩스 - 한국어 방언 발화(충청도)
공공데이터포털
방언(충청도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터
국립국어원 - 온라인 게시 자료 말뭉치 2022
공공데이터포털
(버전 1.0) 게시판, 누리 소통망 등에서 수집한 언어 자료로 구성한 말뭉치입니다.
국립국어원 - 의미역 기술 모형
공공데이터포털
(버전 1.0) 술어의 필수 의미역(우리말샘과 세종 전자사전 의미 번호 부착)을 기술한 모형입니다.
국립국어원 - 한국어-우즈베크어 병렬 말뭉치 2022
공공데이터포털
(버전 1.0) 한국어 문어와 구어 자료를 우즈베크어로 번역하여 구성한 병렬 말뭉치입니다.
국립국어원 - 구어 말뭉치
공공데이터포털
(버전 1.2) 방송, 강연 등의 공적 구어 자료, 드라마 대본 등의 준구어 자료로 구성된 말뭉치입니다.
국립국어원 - 온라인 대화 말뭉치 2021
공공데이터포털
(버전 1.1) 두 명 이상의 대화 참여자가 온라인 공간에서 주고받은 대화 자료로 구성된 말뭉치입니다.
국립국어원 - 맞춤법 교정 말뭉치 2021
공공데이터포털
(버전 1.0) 온라인에서 나타나는 언어 표현을 한국어 처리 도구가 분석할 수 있는 수준으로 교정한 말뭉치입니다.