おおさん、どうもありがとうございます。理研のデータベースを調べてみましたが、イマイチ見つかりませんでした・・・。
代わりにIntronDBというデータベースを見つけましたが、結構よくまとまっていたものの、ドナー/アクセプターサイトの末端2塩基ずつしか配列情報が載っていない(つまり大多数がGT/AG)のがとても残念なポイントでした。
http://www.nextgenbioinformatics.org/IntronDB/download.php
もう少し上流・下流の配列もリスト化されていたら良かったのですが・・・。
話は戻ってgtf・gff3ファイルなんですが、前述の通り、ensemblからダウンロードしたこれらのファイルは遺伝子座のみが表示されていて、配列が載っていません。
ちょうど、以下のような行が数十万行存在するわけですが、「表示されている遺伝子座から、対応する塩基配列を行末あるいは次の行なんかに貼り付ける」なんてことは可能だったりしますでしょうか・・・?
1Ensemblchromosome1248956422...ID=chromosome:1;Alias=CM000663.2,chr1,NC_000001.11
###
1ensemblmRNA1219014149.+.ID=transcript:17672;Name=GENSCAN00000017672;version=1
1ensemblexon1219012227.+.Parent=transcript:17672;Name=127823;exon_id=127823;version=1
1ensemblexon1261312721.+.Parent=transcript:17672;Name=127824;exon_id=127824;version=1
1ensemblexon1405114149.+.Parent=transcript:17672;Name=127825;exon_id=127825;version=1
バイオインフォマティクスにも強くないので凝ったことはできないのですが、いい案がありましたら勉強してやってみようと思うので、アイディアをお持ちの方がいらっしゃいましたらご助力いただけると幸いです。 |
|