데이터셋 상세
미국
Making Predictions using Large Scale Gaussian Processes
One of the key problems that arises in many areas is to estimate a potentially nonlinear function [tex] G(x, \theta)[/tex] given input and output samples [tex] ( X,y ) [/tex] so that [tex]y approx G(x, \theta)[/tex]. There are many approaches to addressing this regression problem. Neural networks, regression trees, and many other methods have been developed to estimate [tex]$G$[/tex] given the input output pair [tex] ( X,y ) [/tex]. One method that I have worked with is called Gaussian process regression. There many good texts and papers on the subject. For more technical information on the method and its applications see: http://www.gaussianprocess.org/ A key problem that arises in developing these models on very large data sets is that it ends up requiring an [tex]O(N^3)[/tex] computation where N is the number of data points and the training sample. Obviously this becomes very problematic when N is large. I discussed this problem with Leslie Foster, a mathematics professor at San Jose State University. He, along with some of his students, developed a method to address this problem based on Cholesky decomposition and pivoting. He also shows that this leads to a numerically stable result. If ou're interested in some light reading, I’d suggest you take a look at his [recent paper]( ) (which was accepted in the Journal of Machine Learning Research) posted on dashlink. We've also posted code for you to try it out. Let us know how it goes. If you are interested in applications of this method in the area of prognostics, check out our [new paper](/dashlink/resources/51/) on the subject which was published in IEEE Transactions on Systems, Man, and Cybernetics.
데이터 정보
연관 데이터
Predicting ABM Results with Covering Arrays and Random Forests
공공데이터포털
Our goal is to explore the feasibility and usefulness of using a combination of covering arrays and machine learning models for predicting results of an agent- based simulation model within the vast parameter value combination space. The challenge is to select parameter values that are representative of the overall behavior of the model, so that we can train the machine learning model to be able to correctly predict behavior on previously untested areas of the parameter space. We have chosen Wilensky's Heat Bugs model in NetLogo for our study. It is a simple model, amenable to quick data generation, with a limited number of outputs to predict, and with emergent behavior. This model therefore allows exploration of this new approach.We utilize covering arrays to reduce the parameter value space systematically, run the model for each parameter set in the 2-way and 3-way covering arrays, train a random forest model on the 2-way data (33, 351 parameter combinations), and test its ability to predict the outcome of the simulation on the significantly larger 3-way data that was not seen during the training of the model (3, 971, 955 parameter combinations).
한국지질자원연구원 - 확률기반의 고라니 서식지 가능성도
공공데이터포털
확률모델인 빈도비를 적용한 고라니(동물) 서식지 분포 가능성도이며, 방위, 방향, 지역 등의 정보가 포함되어 있고, 파일 포맷은 ascii, grid, geotiff입니다.- 데이터 사용법 -* 본 데이터를 사용하려면 상용프로그램인 ArcGIS S/W나 오픈 소프트웨어인 QGIS 프로그램( https://qgis.org/en/site/forusers/download.html에서 다운)을 사용하면 됩니다.* asc파일은 각 셀의 값을 나타내는 텍스트 파일로 텍스트 에디터나 엑셀에서 불러올 수 있습니다.* 전문적 프로그램 활용이 어려운 일반 사용자들을 위해 이미지파일을 제공합니다.- 모델 설명-*빈도비(Frequency Ratio) : 취약성도 혹은 가능성도를 만들기 위한 간단하고 기본적인 확률 모델. 요인에 대해 각 유형(명목형 자료) 혹은 등급(숫자형 자료)별로 전체 면적에서 이벤트가 발생한 면적의 비율이며, 빈도비를 이용하여 구해진 상관관계는 입력자료의 선택 기준이 됨- 데이터 확장자 설명 -geotiff : 지리 참조 정보가 포함되어 있는 이미지 파일형식의 데이터 입니다. (.tiff)grid: 각 격자에 고유한 값이 저장되어있는 Esri사 고유의 래스터 파일형식의 데이터입니다. (.grid)ASCII: 래스터의 속성을 정의하는 헤더 정보와 공백으로 구분 된 각 셀의 값으로 래스터를표현하는 텍스트 파일이며, 프로그램간 자료 호환을 위해 만들어진 파일입니다. (.asc)- 활용 위성 자료 출처 -* 본 산출물의 입력자료로 활용한 Landsat과 Sentinel 위성영상 산출물은 각각 NASA 및 USGS와 ESA에서 소유하고 있으며 다음의 사이트에서 각각 수집한 뒤 전처리하여 사용함. Landsat 데이터는 Earth Explorer(https://earthexplorer.usgs.gov/)에서 다운로드 가능하며, Sentinel 데이터는 Copernicus Open Access Hub (https://scihub.copernicus.eu/dhus/#/home)을 통하여 다운로드 가능. 동식물과 관련된 인공지능 비즈니스 적용을 위한 기본 데이터로 활용엔지니어링 업체, 대학 및 연구기관의 실무 및 교육/연구용
An example data set for exploration of Multiple Linear Regression
공공데이터포털
This data set contains example data for exploration of the theory of regression based regionalization. The 90th percentile of annual maximum streamflow is provided as an example response variable for 293 streamgages in the conterminous United States. Several explanatory variables are drawn from the GAGES-II data base in order to demonstrate how multiple linear regression is applied. Example scripts demonstrate how to collect the original streamflow data provided and how to recreate the figures from the associated Techniques and Methods chapter.
한국지질자원연구원 - 기계학습 기반의 너구리 서식지 가능성도
공공데이터포털
기계학습모델을 적용한기계학습 기반의 너구리 서식지 가능성도이며, 방위, 방향, 지역 등의 정보가 포함되어 있고, 파일 포맷은 ascii, grid, geotiff입니다.- 데이터 사용법 -* 본 데이터를 사용하려면 상용프로그램인 ArcGIS S/W나 오픈 소프트웨어인 QGIS 프로그램( https://qgis.org/en/site/forusers/download.html에서 다운)을 사용하면 됩니다.* asc파일은 각 셀의 값을 나타내는 텍스트 파일로 텍스트 에디터나 엑셀에서 불러올 수 있습니다.* 전문적 프로그램 활용이 어려운 일반 사용자들을 위해 이미지파일을 제공합니다.-학습 모델 설명-* Support Vector Regression (SVR) : 비선형적인 회귀 모델을 구축하기 위하여 원 공간에서 데이터를 고차원 공간으로 매핑한 뒤 고차원 공간에서의 선형 회귀식을 산출하는 방법* Convolutional Neural Network (CNN) : 이미지 인식을 위하여 만들어진 딥러닝 구조; 이미지의 공간적 특성을 반영하기 위해 아핀(affine) 계층 대신에 합성곱(Convolution) 계층 적용- 데이터 확장자 설명 -geotiff : 지리 참조 정보가 포함되어 있는 이미지 파일형식의 데이터 입니다. (.tiff)grid: 각 격자에 고유한 값이 저장되어있는 Esri사 고유의 래스터 파일형식의 데이터입니다. (.grid)ASCII: 래스터의 속성을 정의하는 헤더 정보와 공백으로 구분 된 각 셀의 값으로 래스터를표현하는 텍스트 파일이며, 프로그램간 자료 호환을 위해 만들어진 파일입니다. (.asc)- 활용 위성 자료 출처 -* 본 산출물의 입력자료로 활용한 Landsat과 Sentinel 위성영상 산출물은 각각 NASA 및 USGS와 ESA에서 소유하고 있으며 다음의 사이트에서 각각 수집한 뒤 전처리하여 사용함. Landsat 데이터는 Earth Explorer(https://earthexplorer.usgs.gov/)에서 다운로드 가능하며, Sentinel 데이터는 Copernicus Open Access Hub (https://scihub.copernicus.eu/dhus/#/home)을 통하여 다운로드 가능. 동식물과 관련된 인공지능 비즈니스 적용을 위한 기본 데이터로 활용엔지니어링 업체, 대학 및 연구기관의 실무 및 교육/연구용
한국지질자원연구원 - 확률기반의 너구리 서식지 가능성도
공공데이터포털
확률모델인 빈도비를 적용한 너구리(동물) 서식지 분포 가능성도이며, 방위, 방향, 지역 등의 정보가 포함되어 있고, 파일 포맷은 ascii, grid, geotiff입니다.- 모델 설명-* 빈도비(Frequency Ratio) : 취약성도 혹은 가능성도를 만들기 위한 간단하고 기본적인 확률 모델. 요인에 대해 각 유형(명목형 자료) 혹은 등급(숫자형 자료)별로 전체 면적에서 이벤트가 발생한 면적의 비율이며, 빈도비를 이용하여 구해진 상관관계는 입력자료의 선택 기준이 됨- 데이터 사용법 -* 본 데이터를 사용하려면 상용프로그램인 ArcGIS S/W나 오픈 소프트웨어인 QGIS 프로그램( https://qgis.org/en/site/forusers/download.html에서 다운)을 사용하면 됩니다.* asc파일은 각 셀의 값을 나타내는 텍스트 파일로 텍스트 에디터나 엑셀에서 불러올 수 있습니다.* 전문적 프로그램 활용이 어려운 일반 사용자들을 위해 이미지파일을 제공합니다.- 데이터 확장자 설명 -geotiff : 지리 참조 정보가 포함되어 있는 이미지 파일형식의 데이터 입니다. (.tiff)grid: 각 격자에 고유한 값이 저장되어있는 Esri사 고유의 래스터 파일형식의 데이터입니다. (.grid)ASCII: 래스터의 속성을 정의하는 헤더 정보와 공백으로 구분 된 각 셀의 값으로 래스터를표현하는 텍스트 파일이며, 프로그램간 자료 호환을 위해 만들어진 파일입니다. (.asc)- 활용 위성 자료 출처 -* 본 산출물의 입력자료로 활용한 Landsat과 Sentinel 위성영상 산출물은 각각 NASA 및 USGS와 ESA에서 소유하고 있으며 다음의 사이트에서 각각 수집한 뒤 전처리하여 사용함. Landsat 데이터는 Earth Explorer(https://earthexplorer.usgs.gov/)에서 다운로드 가능하며, Sentinel 데이터는 Copernicus Open Access Hub (https://scihub.copernicus.eu/dhus/#/home)을 통하여 다운로드 가능. 지형, 지질 등 지표면 및 지하 현황 파악 및 분석을 위한 기초 데이터산사태, 홍수, 지진 등 자연재해 분석을 위한 기초 데이터지하수, 광물자원, 골재 등 지하자원 개발을 위한 기초 데이터도시 및 토지 개발, 도로, 철도 적지 선정 등을 위한 기초 데이터지형 및 지질과 관련된 인공지능 비즈니스 적용을 위한 기본 데이터로 활용엔지니어링 업체, 대학 및 연구기관의 실무 및 교육/연구용
국토교통부 국토지리정보원 지각변동감시스템의 점좌표 생성관리 코멘트
공공데이터포털
지각변동감시시스템의 점좌표 생성관리에 대한 코멘트 입니다.지각변동감시 GNSS 상시관측소의 정밀좌표 계산 오류발생 및 처리 등의 정보를 포함하고 있습니다.학술연구 등 GNSS 상시관측소 데이터를 기반으로 한 데이터 분석 시 참고하시기 바랍니다.포함정보 : 순번,점 좌표 프로그램 (공통코드 POINT_PROGRAM) + RINEX(RI),점 좌표 궤도력 (공통코드 POINT_EPHEMERIS),점 기준일자,점 좌표 코멘트 내용,생성자 ID,생성 일자,수정자 ID,수정 일자
한국지질자원연구원 - 확률기반의 주름조개풀 서식지 가능성도
공공데이터포털
확률모델인 빈도비를 적용한 주름조개풀식물) 서식지 분포 가능성도이며, 방위, 방향, 지역 등의 정보가 포함되어 있고, 파일 포맷은 ascii, grid, geotiff입니다.- 데이터 사용법 -* 본 데이터를 사용하려면 상용프로그램인 ArcGIS S/W나 오픈 소프트웨어인 QGIS 프로그램( https://qgis.org/en/site/forusers/download.html에서 다운)을 사용하면 됩니다.* asc파일은 각 셀의 값을 나타내는 텍스트 파일로 텍스트 에디터나 엑셀에서 불러올 수 있습니다.* 전문적 프로그램 활용이 어려운 일반 사용자들을 위해 이미지파일을 제공합니다.- 모델 설명-* 빈도비(Frequency Ratio) : 취약성도 혹은 가능성도를 만들기 위한 간단하고 기본적인 확률 모델. 요인에 대해 각 유형(명목형 자료) 혹은 등급(숫자형 자료)별로 전체 면적에서 이벤트가 발생한 면적의 비율이며, 빈도비를 이용하여 구해진 상관관계는 입력자료의 선택 기준이 됨- 데이터 확장자 설명 -geotiff : 지리 참조 정보가 포함되어 있는 이미지 파일형식의 데이터 입니다. (.tiff)grid: 각 격자에 고유한 값이 저장되어있는 Esri사 고유의 래스터 파일형식의 데이터입니다. (.grid)ASCII: 래스터의 속성을 정의하는 헤더 정보와 공백으로 구분 된 각 셀의 값으로 래스터를표현하는 텍스트 파일이며, 프로그램간 자료 호환을 위해 만들어진 파일입니다. (.asc)- 활용 위성 자료 출처 -* 본 산출물의 입력자료로 활용한 Landsat과 Sentinel 위성영상 산출물은 각각 NASA 및 USGS와 ESA에서 소유하고 있으며 다음의 사이트에서 각각 수집한 뒤 전처리하여 사용함. Landsat 데이터는 Earth Explorer(https://earthexplorer.usgs.gov/)에서 다운로드 가능하며, Sentinel 데이터는 Copernicus Open Access Hub (https://scihub.copernicus.eu/dhus/#/home)을 통하여 다운로드 가능. 동식물과 관련된 인공지능 비즈니스 적용을 위한 기본 데이터로 활용엔지니어링 업체, 대학 및 연구기관의 실무 및 교육/연구용
한국지질자원연구원 - 확률기반의 산초나무 서식지 가능성도
공공데이터포털
확률모델인 빈도비를 적용한 산초나무(식물) 서식지 분포 가능성도이며, 방위, 방향, 지역 등의 정보가 포함되어 있고, 파일 포맷은 ascii, grid, geotiff입니다.- 데이터 사용법 -* 본 데이터를 사용하려면 상용프로그램인 ArcGIS S/W나 오픈 소프트웨어인 QGIS 프로그램( https://qgis.org/en/site/forusers/download.html에서 다운)을 사용하면 됩니다.* asc파일은 각 셀의 값을 나타내는 텍스트 파일로 텍스트 에디터나 엑셀에서 불러올 수 있습니다.* 전문적 프로그램 활용이 어려운 일반 사용자들을 위해 이미지파일을 제공합니다.- 모델 설명-* 빈도비(Frequency Ratio) : 취약성도 혹은 가능성도를 만들기 위한 간단하고 기본적인 확률 모델. 요인에 대해 각 유형(명목형 자료) 혹은 등급(숫자형 자료)별로 전체 면적에서 이벤트가 발생한 면적의 비율이며, 빈도비를 이용하여 구해진 상관관계는 입력자료의 선택 기준이 됨- 데이터 확장자 설명 -geotiff : 지리 참조 정보가 포함되어 있는 이미지 파일형식의 데이터 입니다. (.tiff)grid: 각 격자에 고유한 값이 저장되어있는 Esri사 고유의 래스터 파일형식의 데이터입니다. (.grid)ASCII: 래스터의 속성을 정의하는 헤더 정보와 공백으로 구분 된 각 셀의 값으로 래스터를표현하는 텍스트 파일이며, 프로그램간 자료 호환을 위해 만들어진 파일입니다. (.asc)- 활용 위성 자료 출처 -* 본 산출물의 입력자료로 활용한 Landsat과 Sentinel 위성영상 산출물은 각각 NASA 및 USGS와 ESA에서 소유하고 있으며 다음의 사이트에서 각각 수집한 뒤 전처리하여 사용함. Landsat 데이터는 Earth Explorer(https://earthexplorer.usgs.gov/)에서 다운로드 가능하며, Sentinel 데이터는 Copernicus Open Access Hub (https://scihub.copernicus.eu/dhus/#/home)을 통하여 다운로드 가능. 동식물과 관련된 인공지능 비즈니스 적용을 위한 기본 데이터로 활용엔지니어링 업체, 대학 및 연구기관의 실무 및 교육/연구용
한국지질자원연구원 - 기계학습 기반의 멧토끼 서식지 가능성도
공공데이터포털
기계학습모델을 적용한 기계학습 기반의 멧토끼 서식지 가능성도이며, 방위, 방향, 지역 등의 정보가 포함되어 있고, 파일 포맷은 ascii, grid, geotiff입니다.- 데이터 사용법 -* 본 데이터를 사용하려면 상용프로그램인 ArcGIS S/W나 오픈 소프트웨어인 QGIS 프로그램( https://qgis.org/en/site/forusers/download.html에서 다운)을 사용하면 됩니다.* asc파일은 각 셀의 값을 나타내는 텍스트 파일로 텍스트 에디터나 엑셀에서 불러올 수 있습니다.* 전문적 프로그램 활용이 어려운 일반 사용자들을 위해 이미지파일을 제공합니다.-학습 모델 설명-* Support Vector Regression (SVR) : 비선형적인 회귀 모델을 구축하기 위하여 원 공간에서 데이터를 고차원 공간으로 매핑한 뒤 고차원 공간에서의 선형 회귀식을 산출하는 방법* Convolutional Neural Network (CNN) : 이미지 인식을 위하여 만들어진 딥러닝 구조; 이미지의 공간적 특성을 반영하기 위해 아핀(affine) 계층 대신에 합성곱(Convolution) 계층 적용- 데이터 확장자 설명 -geotiff : 지리 참조 정보가 포함되어 있는 이미지 파일형식의 데이터 입니다. (.tiff)grid: 각 격자에 고유한 값이 저장되어있는 Esri사 고유의 래스터 파일형식의 데이터입니다. (.grid)ASCII: 래스터의 속성을 정의하는 헤더 정보와 공백으로 구분 된 각 셀의 값으로 래스터를표현하는 텍스트 파일이며, 프로그램간 자료 호환을 위해 만들어진 파일입니다. (.asc)- 활용 위성 자료 출처 -* 본 산출물의 입력자료로 활용한 Landsat과 Sentinel 위성영상 산출물은 각각 NASA 및 USGS와 ESA에서 소유하고 있으며 다음의 사이트에서 각각 수집한 뒤 전처리하여 사용함. Landsat 데이터는 Earth Explorer(https://earthexplorer.usgs.gov/)에서 다운로드 가능하며, Sentinel 데이터는 Copernicus Open Access Hub (https://scihub.copernicus.eu/dhus/#/home)을 통하여 다운로드 가능. 동식물과 관련된 인공지능 비즈니스 적용을 위한 기본 데이터로 활용엔지니어링 업체, 대학 및 연구기관의 실무 및 교육/연구용