데이터셋 상세
AI 허브
㈜워트인텔리전스 - 민사법 LLM 사전학습 및 Instruction Tuning 데이터
사법분야 초거대 AI 학습을 위해 민사법의 법령, 판결문, 심결례 및 유권해석 원시데이터로부터 각 분야의 문장을 추출/가공하여 질의/응답 및 요약을 위한 초거대 AI 학습용 Instruction tuning data를 구축함
연관 데이터
㈜워트인텔리전스 - 지식재산권법 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
사법분야 초거대 AI 학습을 위해 지식재산권법의 법령, 판결문, 심결례, 심결문 및 유권해석 원시데이터로부터 각 분야의 문장을 추출/가공하여 질의/응답 및 요약을 위한 초거대 AI 학습용 Instruction tuning data를 구축함
㈜에프아이솔루션 - 행정법 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
행정법 법령, 판결문, 결정례, 해석례 내용을 활용하여 법률서비스 향상을 위한 질의응답와 텍스트 요약 태스크의 Instruction Tuning 데이터
㈜에프아이솔루션 - 형사법 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
형사법 법령, 판결문, 결정례, 해석례 내용을 활용하여 법률서비스 향상을 위한 질의응답와 텍스트 요약 태스크의 Instruction Tuning 데이터
나라지식정보 - 공공 민원 상담 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
단답형 7천쌍, 서술형 3천 쌍으로 된 공공 분야 민원 상담 텍스트 데이터 10,182건 수집하여 분류, 요약, 질의 응답 등 3가지 유형의 Instruction Tuning Data 가공 구축
나라지식정보 - 민간 민원 상담 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
1건당 500글자 이상, 최소 3턴 이상의 질의·답변으로 구성된 민간 민원 상담 텍스트 데이터 1만 건 이상(12,303건)을 수집하여 분류, 요약, 질의응답 유형의 Instruction Tuning Data 구축
㈜아키아카 - 법률/규정 (판결서, 약관 등) 텍스트 분석 데이터
공공데이터포털
1만 건 이상의 판결문을 대상으로 기초사실, 주장 등을 가공한 데이터와 판례 내용을 기반으로 판결문 분석 데이터 구축, 1만 건 이상의 약관의 유·불리 조항 판단. 위법성과 유리 판단 이유 태깅 및 라벨링을 통해 소비자 입장에서의 유·불리 확인을 위한 법률 텍스트 분석 데이터셋 구축
㈜위지윅스튜디오 - 안면 랜드마크 데이터
공공데이터포털
- 인공지능 학습용 데이터 구축을 위한 ‘안면 랜드마크 데이터’의 원천데이터를 획득하여 AI 학습용 데이터로 정제, 가공하여 공개하는 것을 목표로 함
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
행정안전부 정부 공문서 AI 학습데이터 조회 서비스
공공데이터포털
정부 문서를 기반으로 생성된 LLM모델을 위한 AI학습용 데이터입니다. 보도자료, 연설문, 발간사, 정책보고서, 회의/행사 계획 공문서를 활용하여 구축된 말뭉치 학습 데이터 및 질의응답, 재구성, 요약을 위한 목적형 태스크 학습 데이터로 구성되어 있습니다. 주요 특징으로는 다음과 같은 특징을 가지고 있습니다. ● 멀티모달 LLM 대응과 복잡한 표를 가진 문서에 대한 LLM의 이해도 향상을 위해 말뭉치에 표(html)와 그림(별도 저장후 경로 표기)이 포함됩니다. ● LLM을 지시에 따르도록 파인튜닝하기 위해 활용될 수 있는 Q&A, 요약, 재작성용 태스크 데이터셋이 포함됩니다.
데이터리(Data.ly) - 민원 업무 자동화 인공지능 언어 데이터
공공데이터포털
창원시로부터 제공받은 콜센터 및 민원게시판(국민신문고) 원시 데이터에 학습에 필요한 정보(개체명, 의도분류, 부서정보, 키워드 등)를 부착하고 유사문장생성을 통해 표현의 다양성과 언어이해 능력을 향상한 인공지능 데이터셋