..微笑着看着杯中的花茶一片片撑开.. ..透明的花瓣里水破开的声音很轻微..
分类: 信息化
2017-08-05 19:02:13
COG注释
[原文网址] http://blog.sina.com.cn/s/blog_83f77c940102ux6u.html
COG:数据库下载链接:
注意这个数据库还包含个KOG那指的是真核生物的,目前用的蛋白质直系同源注释还有一个eggNOG数据库,这个比较全面,包含的比较多,但是到最后还是要分到COG.
在以上的网址需要下载的文件有:
whog 关于COG序列中的相关注释情况
myva COG数据库所包含的所有fasta格式的序列
fun.txt 大概COG可以按照功能分为25个大类,每一类可以用一个字母表示
===========================
此外需要下载perl程序:
cog_db_clean.pl 并不是所有的COG序列都包含所有的功能注释,所以你需要运行命令,挑选出在COG数据库中有注释的那些序列,脚本下载链接:
cog_db_clean.pl -myva myva whog >cog_clean.fa
formatdb -p T -o T -i cog_clean.fa;
blast_parser.pl 解析blast输出结果,下载链接:
blastall -p blastp -b 500 -v 500 -F F -d cog_clean.fa -e 1e-4 -i yourdata.fa -o blast.out;
blast_parser.pl -tophit 1 -topmatch 1 blast.out >blast.best;
这个时候你就可以编写perl与R程序输出类似下面的结果:
进行KOG注释的方法和COG一致。对真核生物使用KOG注释:
$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kyva
$makeblastdb -in kyva -dbtype prot -title kog -parse_seqids -out /opt/biosoft/ncbi-blast-2.2.28+/db/kog -logfile /opt/biosoft/ncbi-blast-2.2.28+/db/kog.log
$cat /opt/biosoft/ncbi-blast-2.2.28+/db/kog.log
然后,使用Blast将基因组蛋白质序列比对到COG
chenlifu的书上的代码 $blast.pl blastp kog proteins.fasta 1e-5 4 kog 5
实际上用的这个代码 $blastp -query testFSC.fasta -out kog.tab -db kog -evalue 1e-5 -outfmt 7
下载KOG数据库的kog和fun.txt文件。kog文件包含kog编号和KOG数据库中序列名的对应关系,也包含KOG编号和25个大类的对应关系;fun.txt是25个大类的描述性信息。我们根据这2个文件的信息来编写程序对Blast的结果进行处理,得到KOG注释。
KOG的ftp站点 ftp://ftp.ncbi.nih.gov/pub/COG/KOG/
$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kog
$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/fun.txt
$kog_from_xml.pl kog.xml 1e-5