Chinaunix首页 | 论坛 | 博客
  • 博客访问: 583848
  • 博文数量: 69
  • 博客积分: 2204
  • 博客等级: 大尉
  • 技术积分: 808
  • 用 户 组: 普通用户
  • 注册时间: 2009-10-11 22:37
个人简介

..微笑着看着杯中的花茶一片片撑开.. ..透明的花瓣里水破开的声音很轻微..

文章分类

全部博文(69)

文章存档

2018年(1)

2017年(2)

2016年(10)

2015年(8)

2014年(6)

2013年(6)

2012年(4)

2011年(8)

2010年(12)

2009年(12)

分类: 信息化

2013-08-16 11:32:03

没想到这么快再次接触芯片数据,这次的芯片类型是affymetrixU133A芯片。其实是已经公布的数据了,只是拿来再看看。这次只是先简单看下,所以并不是从原始数据开始分析。数据是06年的老数据。在EBIArrayExpress上下的。如下:

 
 

这次只说下如何将探针ID转换为基因的SYMBOL。当然相同的方法也可以获取其它对应的注释信息。在线的工具很多,这里只是为方便后续的分析,因此借助Bioconductor中的AnnotationDbi包。具体可用的注释库可在官方说明的页面检索。

官方说明地址:

 

先安装AnnotationDbi


点击(此处)折叠或打开

  1. >source("")

  2. >biocLite("AnnotationDbi")


    针对我们的
U133A芯片还要下载对应的库,大概50M


点击(此处)折叠或打开

  1. >biocLite("hgu133a.db")
 


然后载入这两个库。

     

点击(此处)折叠或打开

  1. > library(AnnotationDbi)

  2. > library(hgu133a.db)


先看下数据库的信息。

     

点击(此处)折叠或打开

  1. > hgu133a.db


 
库所包含的内容及可以作为检索键的列分别可以用cols命令和keytypes命令查看: 


    接下来就是怎么用这个库去注释我们关心的探针的信息。由于原始文件比较大,我只选取了部分内容做个例子,无论你是用全部的探针或者用已经检验为差异表达的探针,做法都是大同小异的。

 
 

先用命令读入数据,第一列数据为探针ID,因此将其作为要检索的键值赋给k。然后使用select方法来从hgu133a.db中检索对应的相关信息。图中命令如下:


点击(此处)折叠或打开

  1. > my <-read.table("data.txt", sep="\t", head=T)

  2. > k <- my$Scan.REF

  3. >out<-select(hgu133a.db,keys=k,cols=c("SYMBOL","GENENAME"),keytype="PROBEID")
 

Select方法先指定你要使用的数据库,我们这里就是hgu133a的库,接下来的keys参数是要检索的key,可以是所有id,或是感兴趣的id的列表。Cols给出的是你要检索的对应内容,我们这里是根据affy id来检索基因的symbol和基因名,因此在cols参数中只指定了这两项,值得注意的是各项信息间并不是唯一对应的关系,如上图中1007_s_at探针就对应了两种可能的基因。Keytype指定的是用于检索的数据的类型。

 

其它库的用法大同小异,只要稍参考下手册或帮助信息就可以了。
阅读(7664) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~