데이터셋 상세
AI 허브
㈜워트인텔리전스 - 지식재산권법 LLM 사전학습 및 Instruction Tuning 데이터
사법분야 초거대 AI 학습을 위해 지식재산권법의 법령, 판결문, 심결례, 심결문 및 유권해석 원시데이터로부터 각 분야의 문장을 추출/가공하여 질의/응답 및 요약을 위한 초거대 AI 학습용 Instruction tuning data를 구축함
연관 데이터
㈜워트인텔리전스 - 민사법 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
사법분야 초거대 AI 학습을 위해 민사법의 법령, 판결문, 심결례 및 유권해석 원시데이터로부터 각 분야의 문장을 추출/가공하여 질의/응답 및 요약을 위한 초거대 AI 학습용 Instruction tuning data를 구축함
㈜에프아이솔루션 - 행정법 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
행정법 법령, 판결문, 결정례, 해석례 내용을 활용하여 법률서비스 향상을 위한 질의응답와 텍스트 요약 태스크의 Instruction Tuning 데이터
㈜위지윅스튜디오 - 안면 랜드마크 데이터
공공데이터포털
- 인공지능 학습용 데이터 구축을 위한 ‘안면 랜드마크 데이터’의 원천데이터를 획득하여 AI 학습용 데이터로 정제, 가공하여 공개하는 것을 목표로 함
㈜포티투마루 - 행정 문서 대상 기계독해 데이터
공공데이터포털
행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터
한국지능정보사회진흥원 AI허브 교육과정 정보
공공데이터포털
본 데이터는 AI허브에서 제공하는 인공지능 학습용 데이터 라벨링 관련 교육 콘텐츠에 대한 정보를 담고 있습니다.각 콘텐츠는 교육명, 교육 구분(전문가/프로젝트관리자), 난이도 수준(기본/전문/심화 등), 유형(PM과정/비전기술/보안/품질관리 등), 교육 동영상 URL 및 조회수 항목으로 구성되어 있으며, 사용자 수요와 교육 효과성을 분석하는 데 활용됩니다. 본 자료는 인공지능 데이터 가공 인력의 역량 향상 및 표준화된 라벨링 교육 제공을 위한 기반자료로서 유용하며, 공공 AI 학습 데이터 구축 사업 참여자, 민간 데이터 라벨러, 교육 기획자들이 교육 콘텐츠 수립 및 개선 방향을 도출하는 데 활용될 수 있습니다.
행정안전부 정부 공문서 AI 학습데이터 조회 서비스
공공데이터포털
정부 문서를 기반으로 생성된 LLM모델을 위한 AI학습용 데이터입니다. 보도자료, 연설문, 발간사, 정책보고서, 회의/행사 계획 공문서를 활용하여 구축된 말뭉치 학습 데이터 및 질의응답, 재구성, 요약을 위한 목적형 태스크 학습 데이터로 구성되어 있습니다. 주요 특징으로는 다음과 같은 특징을 가지고 있습니다. ● 멀티모달 LLM 대응과 복잡한 표를 가진 문서에 대한 LLM의 이해도 향상을 위해 말뭉치에 표(html)와 그림(별도 저장후 경로 표기)이 포함됩니다. ● LLM을 지시에 따르도록 파인튜닝하기 위해 활용될 수 있는 Q&A, 요약, 재작성용 태스크 데이터셋이 포함됩니다.
㈜아키아카 - 법률/규정 (판결서, 약관 등) 텍스트 분석 데이터
공공데이터포털
1만 건 이상의 판결문을 대상으로 기초사실, 주장 등을 가공한 데이터와 판례 내용을 기반으로 판결문 분석 데이터 구축, 1만 건 이상의 약관의 유·불리 조항 판단. 위법성과 유리 판단 이유 태깅 및 라벨링을 통해 소비자 입장에서의 유·불리 확인을 위한 법률 텍스트 분석 데이터셋 구축
㈜에프아이솔루션 - 형사법 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
형사법 법령, 판결문, 결정례, 해석례 내용을 활용하여 법률서비스 향상을 위한 질의응답와 텍스트 요약 태스크의 Instruction Tuning 데이터
나라지식정보 - 공공 민원 상담 LLM 사전학습 및 Instruction Tuning 데이터
공공데이터포털
단답형 7천쌍, 서술형 3천 쌍으로 된 공공 분야 민원 상담 텍스트 데이터 10,182건 수집하여 분류, 요약, 질의 응답 등 3가지 유형의 Instruction Tuning Data 가공 구축
㈜알토비전 - 추상 요약 사실성 검증 데이터
공공데이터포털
요약문의 오류를 검출하고 수정하여 궁극적으로는 AI의 텍스트 자동 요약 성능을 향상하기 위한 인공지능 학습용 데이터. AI 요약문과 사람 요약문에 포함된 오류를 대분류(문장 생성 오류, 요약문의 내용 오류), 소분류(오류 유형 6가지)로 구분하여 라벨링함.