100长度的基因切片（上下切片间重叠20长度）-aef25u-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

aef25u的ChinaUnix博客

首页　| 　博文目录　| 　关于我

博客访问： 228872
博文数量： 36
博客积分： 1188
博客等级：军士长
技术积分： 802
用户组：普通用户
注册时间： 2010-04-08 21:45

文章分类

全部博文（36）

perl6（2）
DBI（2）
PerlGUI_Wx（6）
BioPerl相关（3）
Perl（23）
未分配的博文（0）

文章存档

2020年（1）

2017年（2）

2015年（1）

2014年（1）

2013年（1）

2012年（3）

2011年（27）

我的朋友

最近访客

推荐博文

相关博文

100长度的基因切片（上下切片间重叠20长度）

分类： WINDOWS

2011-08-27 15:04:35

A.把序列切割成等长且有一定重叠的小段，放在一个FASTA格式的文件中。
B.拆分好的序列名字为原来的序列名字加位置信息（在原来序列上的起始和终止位置），如原来的序列名为E.coli,新的就是E.coli_1-100、E.coli_81-180、......

#use Acme::PerlTidy;
use Bio::Seq;
use Bio::SeqIO;
my $len = '100';
my $offset = '20';
my $in = Bio::SeqIO->new( -format => 'fasta', -file => 'example.fa' );
my $out = Bio::SeqIO->new( -format => 'fasta', -file => '>>out.fa' );
while ( my $seq = $in->next_seq ) {
my $desc_seq = $seq->desc();
my ( $str1, $str2 ) = ( split( '\s', $desc_seq ) )[ 0, 1 ];
my $desc_tem = substr( $str1, 0, 1 ) . '.' . $str2;
my $len_seq = $seq->length();
my ($end,$i) = ('0','0');
while ( $end < $len_seq ) {
$i++;
my $start =
( $i > 1 ) ? $len * ( $i - 1 ) + 1 - $offset * ( $i - 1 ) : 1;
my $end_tem = $start + $len - 1;
$end = ( $end_tem < $len_seq ) ? $end_tem : $len_seq;
my $desc = $desc_tem . '_' . $start . '-' . $end;
my $seqstr = Bio::Seq->new(
-display_id => $desc,
#-desc=>$desc_seq,
-seq => $seq->subseq( $start, $end )
);
$out->write_seq($seqstr);
}
}

example.fa:

example.rar

阅读(2060) | 评论(0) | 转发(0) |

0

上一篇：Text::Table格式化输出列数不一致的二维数组

下一篇：perl6的小技巧杂记（持续更新ing）

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们