この膨大なデータをスクリプト言語によるフィルタリング処理なしに扱うのは無理でしょう。
今からでも覚えればいいんじゃないでしょうか。
そのうちGenome10Kやら100,000Genomesだって出てくるでしょうし。
とりあえずポジションが1000000〜2000000までのものだけ取り出すには以下のようにします。
gzip -dc inputfilename.vcf.gz | perl -ne 'unless(/^#/){@rows=split(/\t/);if($rows[1]>=1000000&&$rows[1]<=2000000){print;}}' > outputfile.vcf
あとは入門本でもお読みください。 |
|