..微笑着看着杯中的花茶一片片撑开.. ..透明的花瓣里水破开的声音很轻微..
分类: 信息化
2016-08-24 09:26:15
by 斑斑
转载请注明出处,欢迎来QQ群178750864交流有关生物信息学的相关内容
Rfam库可以用于对RNA-Seq或宏基因组数据进行RNA类型的注释,在Rfam 11及其之前的版本,对未知序列的比对是基于rfam_scan.pl和Infernal 1.0.x来实现的,并且需要blast程序的辅助。Rfam_scan.pl先调用blast进行相似性比对缩小范围,然后再用Infernal进行cm的计算和比较,找出统计显著的结果。在Rfam 11中对同源相似性大于90%的序列进行了去冗余,并准备了一个Rfam.fasta.gz用于建库分析,到了Rfam 12后,这个文件不再提供了,如果你用fasta_file下的序列建库并使用12的Rfam.cm会发现rfam_scan.pl报错。原因很简单:Rfam 12这个版本升级更新后,Rfam_scan.pl已经不在使用,其功能由Infernal 1.1.x中的cmscan来替代,不同的是cmscam不再采用blast程序预处理的方法,而是使用HMM方法进行过滤。
简而言之:
Rfam 11之前进行注释用rfam_scan.pl并需要blast程序和infernal 1.0.x之前的版本。Rfam 12之后只需要用Infernal 1.1.x就可以了,不要使用rfam_scan来进行处理。
Infernal 1.1后多出了几个程序,现在对Infernal中的程序做个说明:
Cmalign 该程序是将RNA序列同协方差模型进行比对。并输出为Stockholm格式。
Cmbuild 该程序是通过多序列比对结果建立一个协方差模型,并保存在新文件中。
Cmcalibrate 该程序是对协方差模型(CM)进行校准,在使用cmsearch和cmscan前CM模型需要先经过该程序的处理。
Cmconvert 用于格式转换,是将infernal 1.0以后的CM转化为当前版本需要的CM。但对1.0之前的版本无效。
Cmemit 一个采样程序,从CM中进行采样并输出。
Cmfetch 从一个大的CM文件中获取一个或多个CM。
Cmpress 对CM文件进行压缩并建立索引,在使用cmscan之前要先用该程序对CM文件进行处理。
Cmscan 用提交的序列在CM数据库中进行检索。
Cmsearch 用提交的CM模型在序列数据库中进行检索。
Cmstat 对CM文件中的CM模型进行统计汇总。
问:要把大象关冰箱里需要几步?(要将序列进行Rfam 12的注释总共需要需要几步?)
答:三步!
第一步:打开冰箱门。(下载或创建一个CM数据文件。)
如果对Rfam 12全库检索,直接去EBI下载ftp://ftp.ebi.ac.uk/pub/databases/Rfam/12.1/Rfam.cm.gz。
注:如果要用自己的数据集进行建库,需要先用cmbuild对每个多序列比对进行建模,然后把这些CM串在一个文件中。再用cmcalibrate对CM进行校对。
第二步:把大象放进去。(使用cmpress压缩并建立索引)
这步很简单:
$cmpress your_database.cm
这步完成后会像blast建库一样,产生一些二进制文件,用于下面的检索。
第三步:把冰箱门关上!(使用建好的库进行序列检索。)
$ cmscan your_database.cm your_query_sequences.fa > search_results.out
结果默认输出在标准输出中,用重定向符号导在一个文件里就可以了。
结果的格式就不详细解释了,有兴趣的去翻翻原文档吧。