Chinaunix首页 | 论坛 | 博客
  • 博客访问: 582408
  • 博文数量: 69
  • 博客积分: 2204
  • 博客等级: 大尉
  • 技术积分: 808
  • 用 户 组: 普通用户
  • 注册时间: 2009-10-11 22:37
个人简介

..微笑着看着杯中的花茶一片片撑开.. ..透明的花瓣里水破开的声音很轻微..

文章分类

全部博文(69)

文章存档

2018年(1)

2017年(2)

2016年(10)

2015年(8)

2014年(6)

2013年(6)

2012年(4)

2011年(8)

2010年(12)

2009年(12)

分类: 信息化

2017-08-05 19:02:13

COG注释 

[原文网址] http://blog.sina.com.cn/s/blog_83f77c940102ux6u.html

COG:数据库下载链接:
注意这个数据库还包含个KOG那指的是真核生物的,目前用的蛋白质直系同源注释还有一个eggNOG数据库,这个比较全面,包含的比较多,但是到最后还是要分到COG.


在以上的网址需要下载的文件有:


whog    关于COG序列中的相关注释情况

myva     COG数据库所包含的所有fasta格式的序列

fun.txt   大概COG可以按照功能分为25个大类,每一类可以用一个字母表示

===========================

此外需要下载perl程序:

cog_db_clean.pl  并不是所有的COG序列都包含所有的功能注释,所以你需要运行命令,挑选出在COG数据库中有注释的那些序列,脚本下载链接:

cog_db_clean.pl  -myva myva whog >cog_clean.fa
formatdb -p T -o T -i cog_clean.fa; 

blast_parser.pl  解析blast输出结果,下载链接:

blastall -p blastp -b 500 -v 500 -F F -d cog_clean.fa -e 1e-4 -i yourdata.fa -o blast.out;
blast_parser.pl -tophit 1 -topmatch 1 blast.out >blast.best; 

这个时候你就可以编写perl与R程序输出类似下面的结果:




KOG注释
[原文网址] http://blog.csdn.net/sicongfu/article/details/51511202

进行KOG注释的方法和COG一致。对真核生物使用KOG注释:

$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kyva

$makeblastdb -in kyva -dbtype prot -title kog -parse_seqids -out /opt/biosoft/ncbi-blast-2.2.28+/db/kog -logfile /opt/biosoft/ncbi-blast-2.2.28+/db/kog.log

$cat /opt/biosoft/ncbi-blast-2.2.28+/db/kog.log



然后,使用Blast将基因组蛋白质序列比对到COG

chenlifu的书上的代码         $blast.pl blastp kog proteins.fasta 1e-5 4 kog 5

实际上用的这个代码          $blastp -query testFSC.fasta -out kog.tab -db kog -evalue 1e-5 -outfmt 7


下载KOG数据库的kog和fun.txt文件。kog文件包含kog编号和KOG数据库中序列名的对应关系,也包含KOG编号和25个大类的对应关系;fun.txt是25个大类的描述性信息。我们根据这2个文件的信息来编写程序对Blast的结果进行处理,得到KOG注释。

KOG的ftp站点           ftp://ftp.ncbi.nih.gov/pub/COG/KOG/

$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kog

$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/fun.txt

$kog_from_xml.pl kog.xml 1e-5



阅读(16299) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~