Chinaunix首页 | 论坛 | 博客
  • 博客访问: 83762
  • 博文数量: 36
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 0
  • 用 户 组: 普通用户
  • 注册时间: 2016-07-28 10:06
个人简介

安徽屯溪,哈尔滨的雪地,扬州的瘦西湖,想必知道我是谁了吧!!对,小金思密达

文章分类

全部博文(36)

文章存档

2015年(7)

2014年(29)

我的朋友

分类: 信息化

2014-11-07 10:21:31

GFF格式是Sanger研究所定义,是一种简单的、方便的对于DNARNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出GFF格式。目前格式定义的最新版本是版本3GFF格式举例如下:

文件格式说明见下表:

列数

说明

1

“seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-|]

2

“source”注释信息的来源,比如”Genescan””Genbank” 等,可以为空,为空用”.”点号代替

3

“type”注释信息的类型,比如GenecDNAmRNA等,或者是SO对应的编号

4

“start”起始位置

5

“end”终止位置

6

“score”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测时的P-values值。”.”表示为空

7

“strand”序列的方向, +表示正义链, -反义链 , ?表示未知

8

“phase”仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为012

9

“attributes”以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括tab键以及“,=;”,要用URL转义规则进行转义,如tab键用 %09代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。

阅读(1008) | 评论(0) | 转发(0) |
0

上一篇:R的魅力!!

下一篇:circos安装一点通

给主人留下些什么吧!~~