今年度から初めてNGS解析を始めることとしました。初めての試みなので解析の流れに疑問を沢山持っており、皆様にアドバイスを頂きたいと思います。解析はWindows上のubuntuでLinuxで処理します。行うのはmRNAをターゲットとした、de novoのRNA-seqです。Nanoporeシーケンサーも用いて複数のサンプルをmultiplexで解析します。目的は、配列が未知の複数の種について複数のタンパク質とそれらのアイソフォームのおおよその配列を得ることです。この情報をもとにPCRでクローニングを行い、第1世代シーケンサーを用いて正確な配列を決定します。また、RNA-seqのデータからメジャーアイソフォームがどれかも調べます。
論文を色々読みましたが解析の流れが細かなところで異なっており、統一されたやり方が無いような印象を受けています。論文やサイトを参考にして全て取り入れると下記のようになるのかなと思いました。ただ、論文よりも工程がかなり多いです。下記の解析方法は妥当かどうかを教えて頂きたいです。良くなければどのような流れにするのがベストなのかも教えてください。なお、PCのスペックはRyzen (8コア16スレッド)×1、メモリ64 GBです。
●fastq抽出 + ベースコーリング
Poretools + Albacore
●デマルチプレックス&バーコードトリミング
sabre
●de novoアセンブル(4つを試す)
ASplice
SOAPdenovo
Oases
STAR
●アセンブリ評価 & アセンブラの選定
RSEM-EVAL
4つのアセンブラのうち最も良いものを選択する
●クオリティーチェック
FastQC
●クオリティーコントロール
フィルタリング、トリミング、マスキングなど
FASTX-toolkit
●再クオリティーチェック
FastQC
●リードのポリッシング
Nanopolish
●翻訳
Trans Decoder
●アノテーション
何が良いでしょうか。
●遺伝子発現量解析
polyester
宜しくお願いします。 |
|