意外と情報がないシーケンスランのクオリティ確認



シーケンスをした後のデータ解析のツールは色々と日本語で紹介されているけれども、シーケンスのランを評価するツールに関する日本語資料が意外となかったので、書いてみる。

今回の参考資料は、オーストラリアThe University of QueenslandのNewell氏著の「
NGS mapping, errors and quality control」です。

その他の参考サイト
OMIXON BLOG

※Nature Methodを探しましたが見つからず。ないってことはないでしょう?誰か教えてください。


シーケンスランのクオリティコントロール(QC) の流れ



1. fastQC

・ リファレンスゲノムにマッピングする前のfastqをチェックするQCツール
・ リードのクオリティプロファイルをレポートする無料のJava program
・ FASTQ、SAM/BAMファイルを入力
・ QC項目
 - Base Qualities:一塩基ごとに平均のQスコアを出力、平均がQ20以下になるとバッドゾーン
 - Adapter contamination:アダプター配列の混入チェック
 - Duplication rate:PCRで増幅されたテンプレートが何回重複して読まれているのかチェック
・ オフィシャルサイト
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/


2. Picard(ピカード)

・ リファレンスゲノムにマッピングする前のQCツール
・ Javaベースのコマンドラインユーティリティ
・ SAM/BAMファイルをインプット

・ オフィシャルサイト
http://broadinstitute.github.io/picard/
・ コマンド一覧
https://broadinstitute.github.io/picard/command-line-overview.html
・ 結果の見方
https://broadinstitute.github.io/picard/picard-metric-definitions.html

3. SAMtools

・ リファレンスゲノムにマッピングした後のQCツール
・ BAMファイルをインプット

・ オフィシャルサイト
http://www.htslib.org/
・ コマンド一覧
http://www.htslib.org/doc/samtools.html
・ 日本語サイト
NGS Surfer’s wiki :https://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=samtools

Share on Google Plus

About Piyoko

    Blogger Comment
    Facebook Comment

0 コメント:

コメントを投稿