AI 허브
서강대학교 자연어처리 연구실 - 한국어 어체 변환 데이터셋
한국어 대화 시스템에서 활용도가 가장 높은 해요체, 합쇼체, 반말체를 대상으로 한국어 문장을 제작, 수집 체계를 마련하고 관련 정보를 레이블링 한국어 문법에 대한 지식을 보유하고 있는 대학원생이 문장을 분석하고 어체 문장을 작성하는 방식으로 수집 의료 도메인 대화 1,940 문장, 일상, 오피스 대화 672 문장을 수집 역-변환 (Back-transfer) 방법으로 어체 변환을 실험을 수행하는 방식으로 데이터 정확성 검증