过去生物学家一次研究单个基因,而现在我们可以使用高通量技术同时分析成千上万个基因。高通量技术的本质要求生物信息学工具专注于基因集而不是单个基因,例如,微阵列和蛋白质组技术能够挖掘在某些条件下差异表达的基因和蛋白质组,或在不同条件下共表达的基因和蛋白质组。
功能富集分析在解释高通量实验结果中发挥着重要的作用,并通常会导向一系列有意思的基因或蛋白质,从中获得独特的生物学见解。
WebGestalt是在不同生物的背景下进行功能富集分析的一套使用广泛的基因集富集分析工具,是强大的集成型数据挖掘系统,能够管理、检索、组织、可视化和统计分析大量基因。而且WebGestalt 2019比之前的版本增加了新的功能,如支持磷酸化蛋白质组学数据的分析等。接下来,就让笔者带大家来一探究竟吧!
打开WebGestalt最新版的官网:
1、首先选择目标生物体:用户需要从下拉菜单中选择12个生物体或Others(其他)中的1个选项。
2、接着用户需要从下拉列表中选择感兴趣的富集方法(包括ORA、GSEA、NTA),其中不同的方法有不同的参数输入。
3、选择功能数据库
3.1 如果用户从选择目标生物体的菜单中选择了Others(用户可以分析当前未由WebGestalt提供的任何类型的数据)。用户需要上传功能数据库、感兴趣的基因和参考基因。
上传的功能数据库文件的扩展名应为GMT,文件的第一列是基因集ID,第二列是到基因集的外部链接,其他列是注释到该基因集的基因ID(文件应以制表符分隔)。
如果每个基因集ID有相应描述(例如基因集合ID的名称),用户还可以上传DES文件,其第一列是基因集ID,它应该与GMT文件中的ID相同,第二列是每个基因集的描述(所有列都应该用制表符分隔)。
3.2 对如果用户选择12个有机体中的一个,则有一个下拉菜单来显示八个类别:遗传本体论、路径、网络、表型、疾病、药物、染色体位置和Others(其他)选项。选择除了Others之外的七类中的一个后,该类中的详细数据库名称将显示在另一个下拉菜单中。
如果用户选择了12个生物体中的一个,则WebGestalt将对所有上传的文件执行ID映射,因此,用户还需要选择上传的功能数据库文件的ID类型。
4、上传基因列表选择或上传功能库后,用户需要上传或粘贴基因列表。用户应该首先从下拉菜单中选择基因列表的ID类型(红框)。
然后,如果用户选择ORA方法,则用户可以上传只有一列的txt文件或将基因列表粘贴到文本框。
如果用户选择GSEA方法,则用户应上传带有两列的RNK文件:以制表符分隔的基因ID和分数。
5、选择ORA方法后需要上传参考基因列表,用户需要从下拉菜单中选择参考基因列表,例如基因组或许多微阵列平台,或者选择ID类型并上传自定义的txt文件。GSEA方法不需要参考基因列表。
6、用户还可以为不同的方法设置一些高级参数,如设置Minimum Number of Genes for a Category(类别的最小基因数)将删除大小于此数字的类别。类别大小是基于类别中注释的基因和用于ORA方法的参考基因列表(或用于GSEA方法的分级基因列表)之间的重叠基因的数量来计算的;设置Maximum Number of Genes for a Category(类别的最大基因数)将删除大小大于此数字的类别;Significance Level(显著性水平)参数有两个选项:FDR意味着将根据FDR(伪发现率)阈值识别富集类别,而Top意味着将基于FDR排序富集类别。
7、ORA或GSEA方法的输出报告
如果上传数据的ID类型来自WebGestalt 提供的12个生物体之一,则输出报告将包含两个主要部分:总结和富集结果。
总结包括分析中使用的工作参数的两个折叠部分和Go Slim摘要,其中包含三个条形图,说明上传的基因列表中与来自生物过程(红色条形图)、细胞成分(蓝色条形图)和分子功能(绿色条形图)本体的GoSlim术语中的注释基因重叠的基因数量。单击Result Download 链接将下载包含HTML报告和所有结果的文本文件的zip文件。
7.1 结果可视化:FDR阈值默认设置为0.05,一次可以可视化多达100个富集数据集。富集结果部分提供不同可视化选项卡,以及当前查看基因集的详细信息,包括评分、基因表等。可视化包括汇总表格、条形图和火山图。
该表简要总结了丰富的功能类别及其统计信息。通过单击标题,可以按分数和统计数据对表进行排序,单击基因集名称将在底部调出有关类别的详细信息。
条形图垂直绘制富集结果,其中条形宽度等于ORA中的富集比。
如果GSEA结果中存在负相关类别,则图表将在两个方向上使用不同的颜色(双向条形图)。当类别的FDR小于或等于0.05时,条形图的颜色较暗,而FDR大于0.05的类别的颜色处于较浅的阴影中。右键单击绘图将显示下载按钮,可将其保存为SVG和PNG格式。
火山图显示了搜索数据库中所有类别的FDR相对于富集率或NES的对数。重要类别将在上方显示,网点的大小和颜色深度与类别的大小成正比。
将鼠标悬停在一个点上将显示有关它的一些信息,单击它将更新详细信息部分。富集的类别被标记,并且标签的位置可以用鼠标手动调整。标签可以更改为基因集名称,并且可以使用按钮添加指向点的连接线。
如果功能性数据库包含DAG(有向无环图)或树结构,如GO Terms,则该结构将被可视化。
7.2 单个富集基因集的详细信息部分
包含评分统计数据和外部数据库的链接以及基因表下载链接。通过单击图中的相应元素直接键入或通过选择框选择,可以更新该部分以选择类别。基因表列出了重叠或前沿基因以及基因符号、名称和到NCBI的链接,可以通过单击标题对其进行排序。对于ORA,会用Venn图显示输入中的基因和数据库中的基因之间的重叠情况。
对于GSEA,则显示排序分布和表示峰值位置的富集图所取代。
当基因集具有基因之间的网络关系时,例如TCGA共表达网络模块,也可以通过一个按钮来显示基因的网络。这是通过新版本中的Cytoscape.js library实现的。
外部链接会引导用户在WikiPathway和KEGG数据库中进行查看搜索,并突出显示重叠/前沿基因(leading edge genes)。应用WikiPathway对于GSEA进行搜索后,其基因比对的得分与基因的着色梯度相对应。
8、NTA富集方法的输出报告:NTA富集方法的结果页面同样包括任务总结,两个侧图显示了检索或扩展的网络和GO生物过程富集结果的DAG。下面是富集GO术语的种子(seed)基因和信息的几个表。单击DAG中的红框或表格中的旗帜图标将缩放到DAG节点并为网络中的相应基因着色,单击列表图标可以查看富集的GO类别中的基因。
WebGestalt拥有如此丰富而强大的富集功能,小伙伴们,快去试试吧!
WebGestalt 最新版官网:http://www.webgestalt.org
参考文献:Yuxing Liao, Jing Wang, Eric J Jaehnig, Zhiao Shi, Bing Zhang,WebGestalt 2019: gene set analysis toolkit with revamped UIs and APIs, Nucleic Acids Research(IF=11), Volume47, Issue W1, 02 July 2019, Pages W199–W205, https://doi.org/10.1093/nar/gkz401
声 明