데이터셋 상세
미국
Challenging Medically-Relevant Genes Benchmark Set
CMRG v1.00 of a small variant benchmark and structural variant benchmark focused on 273 challenging medically relevant genes for the Genome in a Bottle (GIAB) sample HG002 (aka Ashkenazi son). These benchmarks were generated from a trio-based hifiasm v0.11 (https://doi.org/10.1038/s41592-020-01056-5) diploid assembly of HG002 using PacBio HiFi reads for HG002 for assembly and partitioning into phased haplotypes using Illumina reads for the parents, HG003 and HG004. This benchmark contains vcfs for small and structural variants along with corresponding benchmark bed files indicating regions that are homozygous reference if they do not have a variant in the vcf. We extensively curated the variant calls, excluding any found to be questionable or errors. This benchmark helps measure performance in important challenging regions, including challenging segmental duplications, regions with complex variants, regions with structural variants, and regions affected by false duplications in GRCh37 or GRCh38. This benchmark is described in https://doi.org/10.1101/2021.06.07.444885.
연관 데이터
GIAB Benchmarking of HG002 Assemblies from HPRC Year 1 Bakeoff
공공데이터포털
The Human Pangenome Reference Consortium (HPRC) tested which combination of current genome sequencing and automated assembly approaches yields the most complete, accurate, and cost-effective diploid genome assemblies with minimal manual curation. Assemblies were generated for GIAB HG002. Variant calls from twenty-nine assemblies were evaluated by NIST using dipcall v0.3 (https://github.com/lh3/dipcall) to produce variant calls when aligned to GRCh38. Benchmarking of small variant calls was then performed against GIAB benchmark v4.2.1 using hap.py v3.12 (https://github.com/Illumina/hap.py).
인포보스 - 자생종 병 저항성 유전자 발현확률 데이터
공공데이터포털
● 데이터 키워드 - 유전체, NGS, DNA ● 데이터 상품 정보 - 본 상품은 자생종 유전체 분석을 통해 얻어진 유전자의 유전자군 발현확률 정보를 제공합니다. - 기능 도메인에 대해 기능별 유용성, 효소, 단백질, 병 저항성 유전자군 분류 가공 - 데이터 comparative analysis를 통해 유전자군별 발현 확률 및 계통 확률 계산 ● 컬럼 정보 - fasta format ● 활용 예제 - 본 데이터 상품을 활용하여 사용자는 다음과 같은 정보를 확인할 수 있습니다. 1) 신약 및 기능성 식품, 화장품 개발 관련 분야 기초자료 ● 기간 및 범위 - 2019년 7월 ~ 2019년 12월 [원본 데이터](https://www.bigdata-forest.kr/product/GNM201501)는 로그인 후 구매하여 다운로드 하십시오.
Trace Archive
공공데이터포털
A repository of DNA sequence chromatograms (traces), base calls, and quality estimates for single-pass reads from various large-scale sequencing projects.
GenBank
공공데이터포털
NIH Genetic sequence database; an annotated collection of all publicly available DNA sequences.
Dataset for ORD-040056: Development and Validation of the TGx-HDACi Transcriptomic Biomarker to Detect Histone Deacetylase Inhibitors in Human TK6 Cells
공공데이터포털
Dataset used to determine the predictive accuracy of the HDACi biomarker. This dataset is associated with the following publication: Cho, E., A. Rowan-Carroll, A. Williams, C. Corton, H. Li, A. Fornace, C. Hobbs, and C. Yauk. Development and Validation of the TGx-HDACi Transcriptomic Biomarker to Detect Histone Deacetylase Inhibitors in Human TK6 Cells. Archives of Toxicology. Springer, New York, NY, USA, 95(5): 1631-1645, (2021).
인포보스 - 자생종 병 저항성 유전자 데이터
공공데이터포털
● 데이터 키워드 - 유전체, 유전자, NGS, DNA ● 데이터 상품 정보 - 본 상품은 자생종 유전체 분석을 통해 얻어진 유전자의 유전자군 정보를 제공합니다. - 기능 도메인에 대해 기능별 유용성, 효소, 단백질, 병 저항성 유전자군 분류 가공 - 데이터 comparative analysis를 통해 유전자군별 발현 확률 및 계통 확률 계산 ● 컬럼 정보 - fasta format ● 활용 예제 - 본 데이터 상품을 활용하여 사용자는 다음과 같은 정보를 확인할 수 있습니다. 1) 신약 및 기능성 식품, 화장품 개발 관련 분야 기초자료 ● 데이터 및 기간 - 2019년 7월 ~ 2019년 12월 [원본 데이터](https://www.bigdata-forest.kr/product/GNM201301)는 로그인 후 구매하여 다운로드 하십시오.
인포보스 - 자생종 병 저항성 유전자 계통확률 데이터
공공데이터포털
● 데이터 키워드 - 유전체, 유전자, NGS, DNA ● 데이터 상품 정보 - 본 상품은 자생종 유전체 분석을 통해 얻어진 유전자의 유전자군 계통확률 정보를 제공합니다. - 기능 도메인에 대해 기능별 유용성, 효소, 단백질, 병 저항성 유전자군 분류 가공 - 데이터 comparative analysis를 통해 유전자군별 발현 확률 및 계통 확률 계산 ● 컬럼 정보 - fasta format ● 활용 예제 - 본 데이터 상품을 활용하여 사용자는 다음과 같은 정보를 확인할 수 있습니다. 1) 신약 및 기능성 식품, 화장품 개발 관련 분야 기초자료 ● 기간 및 범위 - 2019년 7월 ~ 2019년 12월 [원본 데이터](https://www.bigdata-forest.kr/product/GNM201401)는 로그인 후 구매하여 다운로드 하십시오.
인포보스 - 자생종 효소 유전자 계통확률 데이터
공공데이터포털
● 데이터 키워드 - 유전체, 유전자, NGS, DNA ● 데이터 상품 정보 - 본 상품은 자생종 유전체 분석을 통해 얻어진 유전자의 유전자군 계통확률 정보를 제공합니다. - 기능 도메인에 대해 기능별 유용성, 효소, 단백질, 병 저항성 유전자군 분류 가공 - 데이터 comparative analysis를 통해 유전자군별 발현 확률 및 계통 확률 계산 ● 컬럼 정보 - fasta format ● 활용 예제 - 본 데이터 상품을 활용하여 사용자는 다음과 같은 정보를 확인할 수 있습니다. 1) 신약 및 기능성 식품, 화장품 개발 관련 분야 기초자료 ● 데이터 및 기간 - 2019년 7월 ~ 2019년 12월 [원본 데이터](https://www.bigdata-forest.kr/product/GNM200801)는 로그인 후 구매하여 다운로드 하십시오.
Analysis of a human brain transcriptome map
공공데이터포털
Background Genome wide transcriptome maps can provide tools to identify candidate genes that are over-expressed or silenced in certain disease tissue and increase our understanding of the structure and organization of the genome. Expressed Sequence Tags (ESTs) from the public dbEST and proprietary Incyte LifeSeq databases were used to derive a transcript map in conjunction with the working draft assembly of the human genome sequence. Results Examination of ESTs derived from brain tissues (excluding brain tumor tissues) suggests that these genes are distributed on chromosomes in a non-random fashion. Some regions on the genome are dense with brain-enriched genes while some regions lack brain-enriched genes, suggesting a significant correlation between distribution of genes along the chromosome and tissue type. ESTs from brain tumor tissues have also been mapped to the human genome working draft. We reveal that some regions enriched in brain genes show a significant decrease in gene expression in brain tumors, and, conversely that some regions lacking in brain genes show an increased level of gene expression in brain tumors. Conclusions This report demonstrates a novel approach for tissue specific transcriptome mapping using EST-based quantitative assessment.