怎么使用R语言ggtree展示进化树-大数据-互联网-天达云

怎么使用R语言ggtree展示进化树
更新：HHH 时间：2023-1-7

今天就跟大家聊聊有关怎么使用R语言ggtree展示进化树，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

今天要模仿的图片来自于论文 Core gut microbial communities are maintained by beneficial interactions and strain variability in fish。期刊是 Nature microbiology

今天重复的图片是Figure1中的聚类树图

论文中写道

Hierarchical clustering dendrogram with jackknife support (numbers on the branches; only values above 50 are shown in the tree).

所以论文中实际的数据做的是聚类分析，而并不是进化树。他这里做聚类分析也能够获得每个节点对应的支持率。这个如何实现我暂时还不知道。为了模仿这个图，下面的输入数据我直接使用进化树文件了，因为构建进化树的时候能够很方便的获得节点的支持率信息。

首先准备构建进化树需要用到的fasta格式序列文件

这里用到的数据集来自网址 https://www.kuleuven.be/aidslab/phylogenybook/Data_sets.html

这本 The Phylogenetic Handbook second edition 不知道大家有没有电子版可以分享呀！

首先是做多序列比对，这里我使用mafft

mafft --auto ggtree_practice.fasta > ggtree_practice_aligned.fasta

构建进化树，我是用iqtree

iqtree -s ggtree_practice_aligned.fasta -bb 1000

得到树文件ggtree_practice_aligned.fasta.treefile

接下来是在R语言里的操作

首先是准备一个分组的数据文件

数据总共三列

第一列是构建进化树用到的fasta文件的序列名，这里注意列明用label，不要用其他
第二列是分组信息，用来填充不同的颜色
第三列也是分组信息，用来映射形状

第二列和第三列的列名就是图例上想显示什么就用什么

加载需要用到的包

library(ggtree)
library(treeio)
library(tidytree)

treeio用来读入进化树
tidytree用来将分组信息整合给进化树
ggtree用来可视化展示进化树

读入进化树和分组信息数据


tree<-read.newick("ggtree_practice_aligned.fasta.treefile",
                  node.label = "support")
d<-read.csv("ggtree_group_info.csv",header=T)
d

将树文件和分组信息整合到一起

trs<-full_join(tree,d,by='label')

去掉支持率小于50的信息

tree@data$support<-ifelse(tree@data$support<50,NA,tree@data$support)

最后一步就是画图了

ggtree(trs,layout = "circular",branch.length = "none")+
  #geom_tiplab(offset = 0.01)+
  geom_tippoint(aes(shape=Diet,color=Gut.compartment),
                size=5)+
  scale_shape_manual(values = c(16,17,18,15))+
  geom_text2(aes(label=support,angle=angle),hjust=-0.2)+
  scale_color_manual(values = c("#800080","#ff8000","#008080"),
                     name="Gut_compartment")+
  guides(color=guide_legend(order = 1))


返回大数据教程...

接下来是在R语言里的操作

新手上路

产品管理

支付方式

关于我们