TCGA数据实战：从UCSC Xena快速获取到差异基因筛选全流程解析

张开发

• 2026/6/12 19:20:00 • 15 分钟阅读

分享文章

1. TCGA数据与UCSC Xena平台简介癌症基因组图谱TCGA是癌症研究领域最重要的公共数据库之一包含了33种癌症类型的基因组、转录组和表观遗传学数据。对于生物信息学新手来说直接从TCGA官网获取原始数据可能会遇到数据分散、格式不统一等问题。这时候UCSC Xena平台就显得特别友好——它就像是一个已经整理好的数据超市所有TCGA数据都经过预处理和标准化开箱即用。我刚开始接触TCGA数据分析时花了两周时间才搞明白如何从GDC官网下载和合并数据。后来发现用Xena平台同样的工作半小时就能完成。虽然数据版本可能不是最新的通常滞后6-12个月但对于大多数探索性分析来说完全够用。平台还贴心地提供了log2(fpkm1)等常用标准化数据省去了繁琐的预处理步骤。2. 数据下载实战技巧2.1 选择合适的数据集打开Xena浏览器xenabrowser.net后在Datasets页面会看到多个数据枢纽。建议优先选择GDC Hub下的数据集这里的数据都经过统一处理质量更有保障。以乳腺癌数据为例搜索TCGA-BRCA会出现多个选项HTSeq FPKM最常用的基因表达量数据HTSeq Counts适合需要自己做标准化的分析miRNA表达谱用于microRNA研究临床数据包含生存时间、分期等信息我通常会同时下载FPKM表达矩阵和对应的基因注释文件probeMap。注意要检查数据更新时间避免使用过于陈旧的版本。下载按钮在页面右上角点击后会自动开始下载.tsv.gz压缩文件。2.2 数据快速导入R环境下载完成后用R语言读取数据非常简便。这里推荐使用data.table包的fread函数它比基础的read.table快5-10倍特别适合处理大型表达矩阵library(data.table) expr_data - fread(TCGA-BRCA.htseq_fpkm.tsv.gz) %% as.data.frame()一个常见问题是第一列会被自动读取为行名。如果后续需要做ID转换建议先用colnames(expr_data)[1] - Ensembl_ID明确指定列名。查看数据维度时正常情况应该有约6万个基因和几百到上千个样本。3. 数据预处理关键步骤3.1 基因ID转换实战TCGA使用Ensembl ID作为基因标识符如ENSG00000223972但分析时我们更需要常见的基因符号如TP53。Xena平台提供的probeMap文件就是用来做这个转换的probeMap - read.delim(gencode.v22.annotation.gene.probeMap) expr_symbol - expr_data %% inner_join(probeMap, byc(Ensembl_IDid)) %% select(gene, starts_with(TCGA))这里会遇到三个典型问题多个Ensembl ID对应同一个基因符号约15%的基因基因符号存在版本号如TP53.1部分基因符号已更新需要手动核对我的处理经验是先用limma包的avereps函数取重复基因的平均值再用正则表达式去除版本号library(limma) expr_final - avereps(expr_symbol[,-1], IDgsub(\\..*,,expr_symbol$gene))3.2 样本分组策略TCGA样本编号的第14-15位是关键01-09原发肿瘤10-19正常对照其他数字代表转移瘤、复发瘤等用这个规则可以快速创建分组变量group_list - ifelse( as.numeric(substring(colnames(expr_final),14,15)) 10, Tumor, Normal ) %% factor(levelsc(Normal,Tumor))实际分析时要注意三点某些癌种正常样本很少如前列腺癌转移瘤样本需要单独分析建议检查样本量是否平衡4. 差异表达分析全流程4.1 limma差异分析实现虽然DESeq2也很流行但limma在处理FPKM数据时更稳定。以下是完整分析代码library(edgeR) design - model.matrix(~group_list) v - voom(expr_final, design, plotTRUE, normalizequantile) fit - lmFit(v, design) %% eBayes() DEG - topTable(fit, coef2, nInf) %% na.omit() %% mutate(regulatecase_when( adj.P.Val0.05 ~ unchanged, logFC1 ~ up, logFC -1 ~ down, TRUE ~ unchanged ))关键参数说明voom的plotTRUE会显示标准化效果图logFC阈值设为1相当于2倍变化建议保存完整的DEG结果而非仅显著基因4.2 结果可视化技巧火山图和热图是展示差异基因的黄金标准。这里分享几个美化技巧火山图优化方案library(ggrepel) ggplot(DEG, aes(logFC, -log10(P.Value), colorregulate)) geom_point(alpha0.6, size1.5) geom_text_repel( datafilter(DEG, abs(logFC)2 adj.P.Val1e-10), aes(labelgene), max.overlaps20 ) scale_color_manual(valuesc(blue,grey,red))热图专业呈现top50 - DEG %% arrange(adj.P.Val) %% head(50) %% pull(gene) pheatmap( expr_final[top50,], scalerow, show_rownamesTRUE, annotation_coldata.frame(Groupgroup_list), colorcolorRampPalette(c(blue,white,red))(100) )5. 常见问题解决方案在实际操作中我遇到过这些典型问题及解决方法问题1数据量纲差异大现象热图显示所有基因都是红色或蓝色解决检查是否忘记做scalescalerow问题2差异基因太少原因可能使用了过于严格的FDR阈值尝试先用P.Value0.05初筛再人工检查问题3关键基因未出现检查确认ID转换是否正确验证用已知标志物基因如BRCA1反查问题4样本聚类异常可能原因存在批次效应解决方案使用ComBat等工具去批次对于想深入分析的同学建议下一步做功能富集分析GO/KEGG蛋白互作网络构建生存分析验证关键基因免疫浸润分析这些分析在Xena平台上都能找到相应的工具和预处理数据。记住好的分析不在于用了多复杂的方法而在于每一步都清楚自己在做什么以及为什么要这样做。

更多文章

前端开发 2026/6/12 19:18:29

openpilot开源自动驾驶系统：300+车型支持的完整部署与使用指南

openpilot开源自动驾驶系统：300车型支持的完整部署与使用指南【免费下载链接】openpilot openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300 supported cars. 项目地址: https://gitcode.com/GitHub_…

一、什么是setuptools？ setuptools 是一个用于创建、分发和安装 Python 包的核心库。它可以帮助你： 定义 Python 包的元数据（如名称、版本、作者等）。声明包的依赖项，确保你的包能够正确运行。构建源代码分发包…

张开发

前端开发 2026/6/12 20:07:48

电流源电路

镜像电流源介绍：1、它是比较基础的电流源，好多电流源是在它基础上改进的实现的。 2、它通过控制R电阻的大小可以控制右面Ic1的电流大小。 3、当需要一个很大的Ic1的时候那么IR就会很大，那么功耗高，这是它的缺点。镜像电流源如下图所示。比例电流源介绍：1、它解决…

张开发

TCGA数据实战：从UCSC Xena快速获取到差异基因筛选全流程解析

最新文章

NVIDIA DGX SuperPOD：AI超级工厂的算力革命

STC8H8K64U单片机内存布局保姆级图解：从code区到EEPROM，新手避坑指南

TVA技术在能源行业的应用综述

python jwt

保姆级教程：在粤嵌GEC6818上搞定GY-39传感器数据采集（附完整源码）

Android音频启动流程避坑指南：AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解

推荐文章

相关文章

分享文章

更多文章

openpilot开源自动驾驶系统：300+车型支持的完整部署与使用指南

终极指南：如何在Photoshop中免费使用AI图像生成功能

3步掌握CyberpunkSaveEditor：解锁赛博朋克2077存档编辑的终极自由

LaTeX2Word-Equation：3秒搞定公式迁移，学术写作效率提升90%

5分钟快速上手：用Docker一键部署Stable Diffusion AI绘画平台

Java基础入门：方法详解

Pretext：值得关注的文本排版引擎涯

ReID已死：三维空间智能体才是目标识别的终局——从“外观相似”到“空间存在”的范式终结与重构

自研地图控件/投入大半年研发/没有的时候好多人问/搞出来了又没人要/哎心好累

Google Maps更新：AI加持，解锁旅行新体验

一天一个Python库：lxml - 高效解析XML和HTML的利器诼

电流源电路