MJさむらいの実験室

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2025/10/22 14:02 |

ＦＡＳＴＡシークエンスのいっぱい入ったファイルの中から、ある特定のＦＡＳＴＡシークエンスを抽出したい時につかえるプログラムを書いてみました。

ここまで書くには結構勉強した。

ＦＡＳＴＡフォーマット
＞１
ＡＴＧＡＴＡＴＧＡＧＧＡＴＧＣＧＴＡＧＴＡ
＞２
ＡＡＡＡＡＴＴＴＴＧＧＧＧＣＣＣＣＣ
＞３
ＴＴＴＴＴＣＣＣＧＴＧＴＡＧＴＧＡＴＧＴＧＴＣＧＴＧＣＴＧＡＴＣＧＴＡＣＧＴＣＧ

という遺伝子が入ったファイルがある。

その中から３のみを抽出したいときは、
＞３
と書かれたファイルを用意して下のプログラムを実行すると。

ＦＡＳＴＡフォーマットのファイルの中から
＞３
ＴＴＴＴＴＣＣＣＧＴＧＴＡＧＴＧＡＴＧＴＧＴＣＧＴＧＣＴＧＡＴＣＧＴＡＣＧＴＣＧ

だけを抽出してくれる。

今５万個とか扱っているのでこれを勉強して書く手間と５万個コピペする手間を考えたら
これを書くほうが楽チン。

プログラムの内容は何でもいいから目的が果たせたらいいという代物なので
褒められたものではないだろう。

ここから下がプログラム

#!/usr/bin/perl -w
use strict;
use warnings;
use POSIX;

# enter the fastafile to hash.
my ($fastafile) = @ARGV;
open FASTA, "<$fastafile";
my %hash=(); # initializes a hash

while (<FASTA>)
{
if ($_ =~ /^>/)
{

        my $header = $_;
        $header =~ s/\s//g;
        my $read_id = $_;

        $hash{$header}{name}=$read_id;
        my $line = <FASTA>;
        $hash{$header}{sequence}= $line;
}
}
close FASTA;

my $counter = 0;

my $name = <STDIN>;

open (FASTANAME, $name);

while (<FASTANAME>)
{

my $filename = $_;

$filename =~ s/\s//g;
my $header = $filename;
if (exists $hash{"$header"})
{
    $counter = $counter + 1;
            print "$hash{$header}{name}";
        print "$hash{$header}{sequence}";
}
}
close (FASTANAME);

print "$counter fasta sequences are here\n";

2007/11/23 06:22 | Comments(0) | TrackBack() | パールプログラム(Perl)

トラックバック

トラックバックURL:

コメントを投稿する

S	M	T	W	T	F	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

<<クローチェ | HOME | Yamanaka stem cells>>

サンカラショッピングモール / ダイエット / ビューティー・美容 / 布団・寝具 / 日用品・雑貨 / 家電製品 / 健康・ヘルスケア / 食べ物 / 飲み物 / アクセサリー / 時計 / ファッション / ブランド / ペット用品 / コスプレ / もしもの人気商品100選 / 新着さんから100 / 送料無料ショップ / もちもちロール / 送料無料ショップ / emsダイエット / ホットシャワー３ /

忍者ブログ[PR]