Bioconductor对芯片探针信息进行注释-lanmeibanban-ChinaUnix博客

拥抱晴空embracethesky.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

lanmeibanban

博客访问： 615139
博文数量： 69
博客积分： 2204
博客等级：大尉
技术积分： 808
用户组：普通用户
注册时间： 2009-10-11 22:37

个人简介

..微笑着看着杯中的花茶一片片撑开.. ..透明的花瓣里水破开的声音很轻微..

文章分类

全部博文（69）

bioinformatics（10）

ncRNA（1）

可变剪接（1）

基因组&转录组（5）

系统发育（3）
数学（1）
Linux（23）

VIM（3）

KDE（1）

GNOME（2）

命令集（8）

基本设置（9）
Perl（14）

Perl_图形化（3）

Perl_网络（4）

Perl_线程&进程（2）

Perl_基础（5）
R（7）

R_图形（1）

R_基础（6）
Network（3）
Database（2）

Mysql（2）
C++（7）

C++编译（2）

C++_开发环境（5）
Windows（2）
未分配的博文（0）

文章存档

2018年（1）

2017年（2）

2016年（10）

2015年（8）

2014年（6）

2013年（6）

2012年（4）

2011年（8）

2010年（12）

2009年（12）

我的朋友

最近访客

推荐博文

Bioconductor对芯片探针信息进行注释

分类：信息化

2013-08-16 11:32:03

没想到这么快再次接触芯片数据，这次的芯片类型是affymetrix的U133A芯片。其实是已经公布的数据了，只是拿来再看看。这次只是先简单看下，所以并不是从原始数据开始分析。数据是06年的老数据。在EBI的ArrayExpress上下的。如下：

这次只说下如何将探针ID转换为基因的SYMBOL。当然相同的方法也可以获取其它对应的注释信息。在线的工具很多，这里只是为方便后续的分析，因此借助Bioconductor中的AnnotationDbi包。具体可用的注释库可在官方说明的页面检索。

官方说明地址：

先安装AnnotationDbi

点击(此处)折叠或打开

>source("")
>biocLite("AnnotationDbi")

针对我们的U133A芯片还要下载对应的库，大概50M。

点击(此处)折叠或打开

>biocLite("hgu133a.db")

然后载入这两个库。

点击(此处)折叠或打开

> library(AnnotationDbi)
> library(hgu133a.db)

先看下数据库的信息。

点击(此处)折叠或打开

> hgu133a.db

库所包含的内容及可以作为检索键的列分别可以用cols命令和keytypes命令查看：

接下来就是怎么用这个库去注释我们关心的探针的信息。由于原始文件比较大，我只选取了部分内容做个例子，无论你是用全部的探针或者用已经检验为差异表达的探针，做法都是大同小异的。

先用命令读入数据，第一列数据为探针ID，因此将其作为要检索的键值赋给k。然后使用select方法来从hgu133a.db中检索对应的相关信息。图中命令如下：

点击(此处)折叠或打开

> my <-read.table("data.txt", sep="\t", head=T)
> k <- my$Scan.REF
>out<-select(hgu133a.db,keys=k,cols=c("SYMBOL","GENENAME"),keytype="PROBEID")

Select方法先指定你要使用的数据库，我们这里就是hgu133a的库，接下来的keys参数是要检索的key，可以是所有id，或是感兴趣的id的列表。Cols给出的是你要检索的对应内容，我们这里是根据affy id来检索基因的symbol和基因名，因此在cols参数中只指定了这两项，值得注意的是各项信息间并不是唯一对应的关系，如上图中1007_s_at探针就对应了两种可能的基因。Keytype指定的是用于检索的数据的类型。

其它库的用法大同小异，只要稍参考下手册或帮助信息就可以了。

阅读(7838) | 评论(0) | 转发(0) |

上一篇：perl模式匹配单行模式与多行模式混合使用的一点内容

下一篇：Firefox的Brief插件不显示未读条目的修正

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6