데이터셋 상세
AI 허브
㈜에이아이웍스 - 시각 상식 기반 추론 데이터 (업사이클링)
이미지 내 객체 및 상황 정보를 기반으로 상식적 판단을 요구하는 질의응답(Q&A)과 사고과정(Chain-of-Thought, CoT)을 포함한 추론형 AI 학습 데이터셋이다. 다양한 시각적 상황을 반영하여 객체 간 관계와 맥락을 이해하고, 이를 바탕으로 상식적인 판단이 가능한 데이터 구조로 구성되었다.
연관 데이터
㈜에이아이웍스 - 인과관계 기반 추론 데이터 (업사이클링)
공공데이터포털
행동과 결과 간 관계를 기반으로 사건의 흐름을 이해하고 논리적 추론을 수행할 수 있도록 구성된 AI 학습 데이터셋이다. 다양한 상황에서 발생하는 인과관계를 반영한 데이터 구조로 구성되며, 사건 간 관계를 설명할 수 있는 질의응답(Q&A) 및 사고과정(Chain-of-Thought, CoT) 데이터로 구축되었다.
㈜에이아이웍스 - 카테고리 기반 추론 데이터 (업사이클링)
공공데이터포털
다양한 주제에 대한 상황 및 맥락 정보를 기반으로, 카테고리 판단 및 분류를 수행할 수 있도록 구성된 추론형 데이터셋이다. 질의응답(QA)과 사고과정(Chain-of-Thought, CoT)을 포함하여 분류 근거를 설명할 수 있는 구조로 설계되었다.
㈜유클리드소프트 - 시각 상식 기반 추론 데이터
공공데이터포털
시각 정보에 대한 이해를 위해 이미지의 유사성 이외에도 논리적 관계, 즉 성질의 유사성, 시각적 상식, 카테고리 등의 관계를 추론할 수 있는 인공지능 모델을 개발하기 위한 대규모 시각 추론 학습 데이터
㈜나라지식정보 - 일반상식 문장 교정 데이터
공공데이터포털
■ 국어를 사용하는 사람들이 매일매일의 생활에서 듣고 보고 사용하는 기초적이고 핵심적인 문장으로 구성된 데이터로 이를 통해 AI 모델이 사람의 생활에서 납득 가능한 논리적 추정을 할 수 있을 것으로 기대함 ■ 데이터 구축 목적에 부합하는가는 AI 모델이 일상생활에서 두루 쓰이는 용어 및 문장을 이해하고 이로부터 기대되는 감정과 상황 변화에 대한 보편적 지식을 산출해 내는지가 중요한 요인으로 작용함
㈜유클리드소프트 - 유사성 기반 추론 데이터
공공데이터포털
시각 정보에 대한 이해를 위해 이미지의 유사성 이외에도 논리적 관계, 즉 성질의 유사성, 시각적 상식, 카테고리 등의 관계를 추론할 수 있는 인공지능 모델을 개발하기 위한 대규모 시각 추론 학습 데이터
㈜비네아 - 한국어 지식기반 관계 데이터
공공데이터포털
문장 내 등장하는 개체(Named Entity) 사이의 관계(Relation) 및 그 속성을 라벨링하여, 문맥 속에서 개체 간 관계 등 다양한 분야의 의미 기반 관계 분석이 가능한 인공지능 학습용 데이터셋을 구축함
㈜위지윅스튜디오 - 시나리오 기반 표정 3D 데이터
공공데이터포털
- 인공지능 학습용 데이터 구축을 위한 ‘시나리오 기반 표정 3D 데이터’의 원천데이터를 획득하여 AI 학습용 데이터로 정제, 가공하여 공개하는 것을 목표로 함
㈜에이아이웍스 - 융합센서 다중객체 추적 및 예측데이터 (업사이클링)
공공데이터포털
융합센서 다중객체 추적 및 예측데이터를 기반으로, 요소간의 의미적 관계 파악이 가능한 데이터로 LLM의 약점을 보완하기 위해 온톨로지, RAG 로 정확도를 높이고, 휴먼 가공과 검수, 그리고 피드백 과정을 통해 언어모델의 편향이나 오류를 수정해서 활용도 높은 이미지·텍스트 기반 데이터를 구축하였습니다.
㈜더바이럴 - 문서 이해 기반 시각요소 생성 데이터
공공데이터포털
문서 내 수치 기반 설명문을 기반으로 차트를 자동 생성하고, 생성된 차트에 대한 질의응답 및 추론 수행을 위한 학습 데이터
㈜나라지식정보 - 상용 자율주행차 주간 도심도로 데이터 (업사이클링)
공공데이터포털
● 주간 도심도로 상황에서 발생하는 다양한 유형의 교통환경에 대한 인공지능 학습용 데이터 ● 기존 '인지' 중심의 AI허브 자율주행 데이터를 주행 상황을 이해하고 대응하는 '판단' 중심의 AI 학습 데이터로 업사이클링 ● 상황 인지 강화를 위한 이미지-텍스트 관계 구축을 통해 주행 환경의 전체적인 맥락을 인간처럼 이해하고 설명할 수 있도록 데이터 구축 ● 인지, 판단, 제어, 인과추론 등 다양한 유형의 QA 데이터셋을 구축