Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1798074
  • 博文数量: 438
  • 博客积分: 9799
  • 博客等级: 中将
  • 技术积分: 6092
  • 用 户 组: 普通用户
  • 注册时间: 2012-03-25 17:25
文章分类

全部博文(438)

文章存档

2019年(1)

2013年(8)

2012年(429)

分类: 系统运维

2012-03-27 14:15:10

Lincoln Stein

BioPerl是一个Perl的开发包,处理大多数常见的生物信息学问题,包括DNA蛋白质分析,进化树构建和分析,遗传数据的解读,还有基因组序列分 析. 其中有一个名为Bio::Graphics的基因组绘制模块,用来把基因信息用一种直观的可视化的方法显示出来,类似于金融分析中的股市走势图.


Bio::Graphics要满足的需求包括:


问题的解决方案是开放的: 需要图形化的信息有很多而且还在继续增加,而且不同的生物信息学家也想用不同的方式表示同一功能的注释信息. 所以需要有加入新的视觉表示方法和扩展已有的视觉表示方法的功能.


特性密度: 有些基因组的特性更加紧密(相邻基因之间的变化很迅速), 而其它的则相对稀疏. 甚至不同的特性可以在同一个基因上重叠,这时你可以想让重叠的部分彼此模糊,有时你希望控制碰撞,把重叠的特性分开显示. 因为如果有上千重叠的特性需要展示,碰撞控制可能会对性能造成大副影响,所以要能依据上下文来激活或关闭碰撞控制.


处理尺度:要既能展现基因组中包含500碱基对的高清细节的图片,又能画出跨度为一亿五千万核苷酸的基因全貌.


对交互web应用有用: 用户可以点击特性的图片来打开下拉菜单,链接到其他网页,查看工具等等.


独立于图形格式: 处理布局的部分和生成图像的部分应该分开,这样更容易生成各种不同格式的图片.


独立于数据库模式: 基因的特性的数据可以存在一个简单的文本文件里,也能存入一个复杂的关系数据库里.


需求确定后便可以进行设计了. 首先通过编写一段伪代码来搞明白Bio::Graphics应用的流程:


  1. use Bio::Graphics::Panel;

  2. @first_set_of_features = get_features_somehow();
  3. @second_set_of_features = get_more_features_somehow();

  4. $panel_object = Bio::Graphics::Panel->new(panel_options...)
  5. $panel_object->add_track(\@first_set_of_features, track_options...);
  6. $panel_object->add_track(\@second_set_of_features, track_options...);

  7. print $panel_object->png;

panel是用来显示图形的主界面. get_features可以从数据库中提取特性. add_track可以在panel里加入一条显示特性集的一条轨道. 最后png方法可以生成一个png图片.


上面的代码包含了典型的应用流程. 但API中有一些缺陷.
最大的问题是它强迫程序员在开始构造图像前把所有特性载入内存.
另一个问题是调用add_track后,就不能再改动该轨道的配置设置.
最后,add_track迫使程序员按固定顺序加入轨道,不能在任意位置插入轨道.

为此,需要改进代码(伪代码):


  1. use Bio::Graphics::Panel;

  2. $panel_object = Bio::Graphics::Panel->new(panel_options...)
  3. $track1 = $panel_object->add_track(bump_true, other_track_options...);
  4. $track2 = $panel_object->add_track(bump_true, other_track_options...);

  5. $collection = Bio::SeqFeature::CollectionI->new(@args);
  6. $iterator = $collection->get_seq_stream(@query_parameters);

  7. $genes = 0; $variations = 0;
  8. while ($feature = $iterator->next_seq) {
  9.     if ($feature->method eq 'gene') {
  10.         $track1->add_feature($feature);
  11.         $genes++;
  12.     } elsif ($feature->method eq 'variation') {
  13.         $track2->add_feature($feature);
  14.         $variations++;
  15.     }
  16. }

  17. $track1->configure(bump_false) if $genes > 100;
  18. $track2->configure(bump_false) if $variations > 100;

  19. print $panel_object->png;

上面的代码在panel上创建了两条轨道。初始时它们是碰撞测试的(bump_true)。

Bio::SeqFeature::Collection可以 从数据库中一次读取一条特性,这样就避免了一次性载入所有的特性。之后根据特性的信息,改变两条轨道的显示:第一条显示基因(genes)的特性,第二条 显示变种(variations)的特性。最后根据特性数量的多少来改变轨道的配置,决定轨道是否进行碰撞测试。


在前面的代码里涉及到设定选项(panel_options),这里把它定义成如下的方式:


  1. $track1 = $panel_object->add_track(\@featurs,
  2.     -height => 10,
  3.     -bgcolor => 'blue',
  4.     -bump => 1;


确定模块中的类
Bio::Graphics::Panel:代表整个图表,负责确定画图区内每条轨道的位置,并负责把特性坐标(用碱基对表达)转换为图像轮廓坐标。

Bio::Graphics::Track:组成面板的轨道,主要负责确定图像轮廓的位置并画出它们。

Bio::Graphics::Glyph:图符的通用类,用来定义特性的绘制方法。比如是一个简单矩形还是椭圆形。

当Track绘制方法大致为:


  1. sub draw {
  2.     @glyphs = $self->get_list_of_glyphs();
  3.     for $glyph (@plyphs) {
  4.         $glyph->draw;
  5.     }

  6.     # draw other stuff in the track, for example, its label
  7. }

glyph类的各个子类都应该知道绘制自己的方法,同时如果特性还包含子特性的话,glyph也需要管理对应的subglyph。下面是glyph的new方法:
  1. sub new {
  2.     $self = shift;
  3.     $feature = shift;
  4.     for $subfeature ($feature->get_SeqFeatures) {
  5.         $subglyph = Bio::Graphics::Glyph->new(-feature=>$subfeature);
  6.         $self->add_subpart($subglyph);
  7.     }
  8. }

glyph的绘制代码需要管理自己内部子图符的绘制:
  1. sub draw {
  2.     @subglyphs = $self->get_subparts();
  3.     
  4.     for $subglyph (@subglyphs) {
  5.         $subglyph->draw;
  6.     }
  7.     
  8.     # draw ourself somehow
  9. }


因为track其实也图符有的共通点,所以可以把它作为Bio::Graphics::Glyph的子类。这样面板增加轨道的方法类似于:
  1. sub add_track {
  2.     my $self = shift;
  3.     my $features = shift;
  4.     my @options = @_;
  5.     my $top_level_feature = Bio::Graphics::Feature->new(-type=>'track');
  6.     my $track_glyph = Bio::Graphics::Glyph::track->new(\@options);

  7.     if ($feature) {
  8.         $track_glyph->add_feature($_) foreach @$features;
  9.     }
  10.     $self->do_add_track($track_glyph);
  11.     return $track_glyph;
  12. }

add_feature用于创建包含在轨道内的子图符:


  1. sub add_feature {
  2.     my $self = shift;
  3.     my $feature = shift;
  4.     my $subglyph = Bio::Graphics::Glyph->new(-feature=>$feature);
  5.     $self->add_subpart($subglyph);
  6. }

在add_feature里,会创建一个子图符的对象,但是之前我们希望调用者可以通过传入选项来指定使用哪种图符,比如$panel->add_track(-glyph=>'arrow')可以创建一个箭头. 为此,解决方法是利用工厂:
  1. package Bio::Graphics::Glyph::Factory;

  2. use strict;

  3. my %GENERIC_OPTIONS = (
  4.     bgcolor => 'turquoise';
  5.     fgcolor => 'black';
  6.     fontcolor => 'black';
  7.     font2color => 'turquoise';
  8.     height => 8,
  9.     font => 'gdSmallFont',
  10.     glyph => 'generic';
  11. );

  12. sub new {
  13.     my $class = shift;
  14.     my %args = @_;
  15.     my $options = $args{-options};
  16.     my $panel = $args{-panel};
  17.     return bless {
  18.         options => $options,
  19.         panel => $panel,
  20.     }, $class;
  21. }

  22. sub option {
  23.     my $self = shift;
  24.     my $option_name = shift;
  25.     $option_name = lc $option_name;
  26.     if (exits $self->{options}{$option_name}) {
  27.         return $self->{options}{$option_name};
  28.     } else {
  29.         return $GENERIC_OPTIONS{$option_name};
  30. }

  31. sub make_glyph {
  32.     my $self = shift;
  33.     my @result;

  34.     my $glyph_type = $self->option('glyph');
  35.     my $glyph_class = 'Bio::Graphics::Glyph::' . $glyph_type;
  36.     eval ("require $glyph_class"!) unless $glyph_class->can('new');

  37.     for my $feature (@_) {
  38.         my $glyph = $glyph_class->new(-feature=>$f, -factory=>$self);

  39.         push @result, $glyph;
  40.     }
  41.     return @result;
  42. }

  43. 1;

在make_glyph里当glyph_class的new函数没有载入进来时,再在eval里引入对应的图符模块,可以避免不必要的编译.上面可以看到 factory本身作为一个参数选项传入了glyph_class的构造函数里.下面是glyph相关于factory的两个方法:
  1. sub factory {
  2.     my $self = shift;
  3.     return $self->{factory};
  4. }

  5. sub option {
  6.     my $self = shift;
  7.     my ($option_name) = @_;
  8.     return $self->factory->option($option_name);
  9. }


下面把所有的东西联系起来,简单展示Bio::Graphics的实际用法:
  1. #!use/bin/perl

  2. use strict;

  3. use Bio::Graphcis;
  4. use Bio::SeqFeature::Generic;
  5. my $bsg = 'Bio::SeqFeature::Generic';

  6. my $span = $bsg->new(-start=>1,-end=>1000);

  7. my $test1_feat = $bsg->new(-start=>300,-end=>700,-display_name=>'测试用特性',-source_tag=>'测试而已');

  8. my $test2_feat = $bsg->new(-start=>650,-end=>800,-display_name=>'测试特性2');

  9. my $panel = Bio::Graphics::Panel->new(-width=>600, -length=>$span->length, -pad_left=>12, -pad_right=>12);

  10. $panel->add_track($span, -glyph=>'arrow', -double=>1, -tick=>2);

  11. $panel->add_track([$test1_feat, $test2_feat],
  12.     -glyph=>'box',
  13.     -bgcolor=>'orange',
  14.     -font2color=>'red',
  15.     -height => 20,
  16.     -label => 1,
  17.     -description => 1,
  18. );

  19. print $panel->png;


程序员可能希望选项参数是动态的,比如-bgcolor可以根据特性的不同而显示不同的颜色. 可以使用callback的方法:
  1. $panel->add_track(\@features,
  2.     -glyph=>'box';
  3.     -bgcolor=>sub{
  4.         my $feature = shift;
  5.         my $score = $feature->score;
  6.         return 'white' if $score < 0.25;
  7.         return 'pink' if $score < 0.75;
  8.         return 'red';
  9.     }
  10. );

碰撞控制也可以是动态的:
  1. -bump=>sub {
  2.     my ($feature, $option_name, $glyph) = @_;
  3.     return $glyph->panel->length < 50_000;
  4. }


为了支持动态选项,factory需要作些修改:
  1. sub option {
  2.     my $self = shift;
  3.     my ($glyph, $option_name) = @_;
  4.     $option_name = lc $option_name;
  5.     my $value;
  6.     if (exits $self->{options}{$option_name}) {
  7.         $value = $self->{options}{$option_name};
  8.     } else {
  9.         $value = $GENERIC_OPTIONS{$option_name};
  10.     }

  11.     return $value unless ref $value eq 'CODE';

  12.     my $feature = $glyph->feature;
  13.     my $eval = eval {$value->($feature, $option_name, $glyph)};
  14.     warn "Error while evaluating "$option_name' option for glyph $glyph, feature $feature: ", $@, "\n" if $@;

  15.     return defined $eval && $eval eq '*default*

如果value的类型是CODE的话,就会调用这段子程序并返回子程序执行结果.

相应地,glyph也要作出修改:


  1. sub option {
  2.     my $self = shift;
  3.     my ($option_name) = @_;
  4.     return $self->factory->option($self, $option_name);
  5. }


接下来是web交互的支持,如点击某图符可以显示下拉菜单之类的:
  1. $panel = Bio::Graphics::Panel->new(@args);
  2. $panel->add_track(@args);
  3. $panel->add_track(@args);
  4. ...
  5. ($url, $map, $mapname) = $panel->image_and_map(
  6.     -root => '/var/www/html',
  7.     -url => '/images',
  8.     -link => sub {
  9.         my $feature = shift;
  10.         my $name = $feature->display_name;
  11.         return "";
  12.     }
  13. );
  14. print "

    我的基因组

    "
    ;
  15. print "";
  16. print $map;

通过image_and_map方法,把图片转化为html的片段,之后只需把有效的html文本打印出来,就可以生成可用于web交互的图像。

为了支持多种图形格式,Bio::Graphics用Perl的GD库来执行底层图形调用。GD库基于Tom Boutell的libgd(),可以生成多种格式的位图图像,包括PNG、JPEG和GIF。下面是 Bio::Graphics::Panel的png方法:
  1. sub png {
  2.     my $self = shift;
  3.     my $gd = $self->gd;
  4.     return $gd->png;
  5. }

但是GD只支持位图,Todd Harris写的Perl的GD::SVG模块()解决了这个问题。下面的代码可以生成SVG图像:
  1. $panel = Bio::Graphics::Panel->new(-length=>1000, -width=>600, -image_class=>'GD::SVG';);
  2. $panel->add_track... etc...
  3. print $panel->gd->svg;


Bio::Graphics被设计为可扩展的,所以很容易添加新图符,下面的代码添加一个沙漏图符:
  1. package Bio::Graphics::Glyph::hourglass;

  2. use strict;
  3. use base 'Bio::Graphics::Glyph::box';

  4. sub draw_component {
  5.     my $self = shift;
  6.     my ($gd,$dx,$dy) = @_;
  7.     my ($left,$top,$right,$bottom) = $self->bounds($dx,$dy);

  8.     # 绘制多边形代表沙漏
  9.     my $poly = GD::Polygon->new;
  10.     $poly->addPt($left,$top);
  11.     $poly->addPt($right, $bottom);
  12.     $poly->addPt($right, $top);
  13.     $poly->addPt($left, $bottom);
  14.     $poly->addPt($left, $top);
  15.     $gd->filledPolygon($poly, $self->bgcolor);
  16.     $gd->polygon($poly, $self->fgcolor);
  17. }

  18. 1;


Lincoln Stein认为Bio::Graphics适用于所有层次的程序员:新手可以立刻上手,中等水平的程序员可以写回调来修改类库的输出,而最有经验的可以定制图符扩展类库。

:在麻省理工大学Whitehead基因研究所工作,开发用于老鼠和人类的基因图谱数据库。代表作有《Network Programming in Perl》。

阅读(1433) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~