BioTechnicalフォーラム [1000Genomesのvcfファイル]

1000Genomesのvcfファイル

No.5038-TOPIC - 2016/05/04 (水) 11:34:52 - ken

1000genomesのvcfファイルを開こうと思っています。
一部は巨大すぎて、開けないのですが、
desktopPCで編集する方法はありますか？

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/
　

- このトピックにメッセージを投稿する -

全7件 ( 1 ～ 7 )　前 | 次　1/ 1. /1

vcf tools等が使えるはずです

削除/引用

No.5038-8 - 2016/06/23 (木) 16:11:37 - 山口

単にスクリプトを作ってもよいですが、vcf toolsなどを使うともっと効率的(手間、計算速度)にできます。

https://vcftools.github.io/index.html

vcf toolsで遺伝子のアノテーションを付けられるかどうか
忘れましたが、bedtoolsならできたと記憶してます。

(無題)

削除/引用

No.5038-7 - 2016/05/07 (土) 23:54:40 - ken

みなさんご返信ありがとうございます。
例えば、このリストの中から、100種類の遺伝子のデータだけを一度に抽出することも可能なのでしょうか？
もし可能でしたら、
スクリプトをお教え願えないでしょうか。

(無題)

削除/引用

No.5038-6 - 2016/05/06 (金) 20:08:24 - たていす

GUIでよければ、igvで見てみるのも、良いかもしれない。
igvは、integrated genome viewer です。
1000ゲノムをインポートできるようになっています。
でも、スクリプトを覚えておいて、悪いことはない

(無題)

削除/引用

No.5038-4 - 2016/05/06 (金) 17:49:38 - 橘

この膨大なデータをスクリプト言語によるフィルタリング処理なしに扱うのは無理でしょう。
今からでも覚えればいいんじゃないでしょうか。
そのうちGenome10Kやら100,000Genomesだって出てくるでしょうし。

とりあえずポジションが1000000～2000000までのものだけ取り出すには以下のようにします。

gzip -dc inputfilename.vcf.gz | perl -ne 'unless(/^#/){@rows=split(/\t/);if($rows[1]>=1000000&&$rows[1]<=2000000){print;}}' > outputfile.vcf

あとは入門本でもお読みください。

(無題)

削除/引用

No.5038-3 - 2016/05/05 (木) 11:19:07 - ken

この膨大なファイルを処理するのは、大変そうです。
必要な行だけ検索・ピックアップして、保存するにはどうしたらいいんでしょうか。
小さなファイルであれば、エクセルで開いて、マクロで削除していましたが、
Perl等の言語は全くの素人です。

(無題)

削除/引用

No.5038-2 - 2016/05/04 (水) 21:47:18 - 橘

sed/awk/perl/python/ruby辺りで普通に処理できます。
もちろん全体をメモリにロードしてから処理となればそれなりのメモリ容量が必要ですが、1行ずつ読み込んで処理すれば大丈夫です。
パイプやモジュールを利用すればgzip圧縮されたままでも扱えますよ。

1000Genomesのvcfファイル

削除/引用

No.5038-1 - 2016/05/04 (水) 11:34:52 - ken

全7件 ( 1 ～ 7 )　前 | 次　1/ 1. /1

パスワードを入力してチェックした記事を

チェックした記事を

〔使い方〕

「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。