
ショートリードNGSデータ解析ソフトウェア
NextGENe
特徴
NextGENe(ネクストジーン)ソフトウェアは、米国SoftGenetics社が開発したショートリードNGS(Next Generation Sequencing)データ向けの解析ソフトウェアです。NGSデータ解析の、主に二次解析から三次解析に対応しています。SoftGenetics社独自技術により、特にリファレンスマッピングやバリアントコーリングにおいて高速かつ軽快なデータ処理が可能で、NGSデータ解析の効率を大幅に改善します。安価なWindows®コンピューターで動作するよう最適化された、コマンドライン不要のNGSデータ解析パイプラインです。
マッピングと変異検出のパフォーマンス例(リード前処理、ファイル形式変換後)

概要
リファレンスマッピング
NextGENeはリファレンスゲノムのサイズにより2種類の独自のアライメントアルゴリズムを採用しています。ヒトやマウスなど大きなリファレンスゲノムのリファレンスマッピングには、改良されたBurrows-Wheeler Transform (BWT) を活用した高速かつ正確なアライメントアルゴリズムを使用しています。また構造変異/融合遺伝子検出、STRタイピング、HLAタイピング、RNA-seqなどのアプリケーションには、さらにアプリケーション独自のアライメントアルゴリズムを使用します。ペアエンドリードのアライメントにも対応しています。
対応アプリケーション
DNAリシーケンス
NextGENeは、がんや希少疾患のエクソームシーケンスやターゲットシーケンス、全ゲノムシーケンスなどのDNAリシーケンスデータの二次解析から三次解析に対応しています。Windows®オペレーティングシステムで動作し、独自のデータ圧縮技術や解析アルゴリズムを使用することで、様々なコストを大幅に削減できます。
SNVs/Indels
NextGENeでは、Fastqファイルの前処理後、リファレンスマッピング前にFastqファイルをFastaファイルに変換します。NextGENeは信頼性高いバリアントコールを見分けるため、独自のスコアリングシステムを採用しています。
MNVs/DelIns
リードフェージング
NextGENeは、「リードフェージング」機能を使ってMNV(複数塩基変異)やDelIns(欠失挿入)のコールも可能です。「リードフェージング」機能は連続する複数のSNPsやIndelsをスキャンして同じリード上にあるかどうか調べ、同じリード上にあるときそれらを一つのMNVやDelInsに統合してコールします。

CNVs:HMMと分散を用いたCNVsコール
NextGENeでは、分散値(ノイズ量)と隠れマルコフモデル(Hidden Markov Model : HMM)を使ったサンプル‐コントロールのカバレッジ比に基づくCNV推定を行えます。CNVの推定は指定した領域単位で行われます。

SVs/Fusion:Split-read mapping法を用いたSVs/Fusion検出・Breakpoint解析
NextGENeソフトウェアの最新バージョンver.2.4.3には、Split-read mapping法に基づいた構造多型や融合遺伝子検出機能が搭載されています。リファレンス配列にアライメントされたリード内の高ミスマッチ領域を分割して疑似ペアリードを生成し、高ミスマッチ領域側の疑似リードをリファレンスに再マッピング・アライメントして構造多型や融合遺伝子を検出します。融合遺伝子検出では、ゲノム+mRNAリファレンスを使用します。
バリアントアノテーションとフィルタリング
dbSNPやClinVar、dbNSFPなど外部バリアントデータベース由来のバリアントアノテーション情報をインポートしてデータ解析に使用できます。デフォルトのほか、カスタムで様々な外部バリアントデータベースの情報をインポートしてバリアントトラックとして使用することも可能です(カスタムインポートする場合、バリアントの識別子として「染色体番号」「座標」「リファレンスアレル」「変異アレル」情報が必要です。)。
サンプル間変異比較とトリオ解析
NextGENeのバリアント比較ビューでは、最大20サンプルのバリアントコールをリードアライメントを見ながら一度に確認できます。各サンプルの血縁関係や表現型、バリアントタイプを指定して、条件に合致したバリアントに絞り込むことも可能です。
その他のアプリケーション
NextGENeは、RNA-seqやmicroRNA-seqデータの二次解析からリードカウントの取得までに対応しています。Windows®オペレーティングシステムで動作し、独自のデータ圧縮技術や解析アルゴリズムを使用することで、様々なコストを大幅に削減できます。
FASTQファイルの前処理
NextGENeはFASTQファイルの前処理のための様々な機能を搭載しています。前処理のほか、解析を効率化する便利な機能も搭載してます。


左:Format Conversionツール。右:処理後のログファイル。
-
アダプタートリミング・・・アダプター配列を指定してリード末端のトリミングを行えます。
-
クオリティトリミング・・・リードの低クオリティ末端の除去や、Qスコア中央値が指定値より低いリードをフィルタリングして解析から除外できます。
-
ペアエンドリードの結合・・・ペアエンドリードのオーバーラップを利用してペアのリードを結合します。
-
サブサンプリング・・・Fastqファイルからペアリードをペアとして保持したまま、ランダムにリードを抜粋してサブサンプルファイルを生成します。
-
Duplicatesリードの除去・・・アライメント前に、リード末端の配列が同一のリードをduplicatesとして除去します。
-
その他
-
Demultiplexing
-
ファイル形式変換
-
シミュレーションリードデータの生成
-
merged fastqをR1/R2へ分割 etc.
-
-
FASTQ前処理からバリアントコールまで自動解析
FASTQファイルの前処理プロセスはNextGENe AutoRunツールのジョブに組み込むことも可能です。NextGENe AutoRunツールを使えば、Fastq圧縮ファイルからバリアンレポートの生成まで、Fastqファイルの前処理を含めた一連の解析プロセスを自動化できます(NextGENe AutoRunツールについてはこちら)。
リファレンスマッピング
NextGENeでは、リファレンスゲノムのサイズに応じて2種類の独自アライメントアルゴリズムを使い分けています。
さらに構造変異や融合遺伝子の検出、STRタイピング、HLAタイピング、RNA-seqといった各アプリケーションには、それぞれ専用のアルゴリズムを採用しています。
ペアエンドリードのアライメントにも対応しており、結果はNextGENeビューワで直接確認できるほか、標準的なBAMファイル形式で出力することも可能です。
Whole Genomeアライメント
250Mb以上の大きなゲノムに対しては、NextGENe独自のWhole Genomeアライメントアルゴリズムを使用します。このアルゴリズムは改良版Burrows-Wheeler Transform (BWT) を採用しており、高速かつ正確なアライメントを実現しています。
このアライメントは段階的なアライメントプロセスから構成されています。
-
初期アライメント・・・まずリファレンスと完全一致するリードをアライメントし、その後ユーザーが指定した許容ミスマッチ数に基づいてリードをアライメントします。
-
二次アライメント・・・次に初期アライメントでアライメントされなかったリードからSeed配列をとって、リファレンスにマッピングします。最適な位置が見つかると、そこでアライメントを拡張し最終的なアライメントを決定します。Seed配列の長さやSeed配列をとる間隔、最終的アライメントの最大許容ミスマッチ率などはユーザーが指定できます。
このSeedマッチングにより、Indelsを含むリードも正確にアライメントできます。さらに、ヒトやマウスなど主要なリファレンスゲノムはSoftGenetics社からインデックス付きで提供されているため、すぐに高速かつ正確なアライメントが実行可能です。


カバレッジカーブレポート:アライメントQCとして、リードのマッピング率やターゲット領域のカバレッジなど、アライメント後のクオリティを確認するための各種統計量を出力できます。ターゲット領域はBEDファイルをロードして指定できます。
バリアントコール
独自のバリアントコール信頼性スコア
NextGENeは、FastqファイルをFastaファイルに変換してからリファレンスマッピングとバリアントコールを実行するため、バリアントコールの信頼性スコアリングには独自のシステムを採用しています。この独自スコアであるOverallスコアは、リード上の位置を考慮したカバレッジ深度やリードの向きのバランス、周辺のミスマッチ量、同じ座位におけるバリアントコール数等を考慮して計算されます。バリアントコールのリストはMicrosof Excel等で開けるようタブ区切りのテキストファイルで出力したり、一般的なVCF(Variant Call Format)形式で出力可能です。


各スコアの分布(左)とスコアによるバリアントレポートのフィルタリング設定(右)
リードフェージング機能
リードフェージング
リードフェージングは同じリード上にある近接するバリアントコールを統合する機能です。NextGENeは連続する複数のSNPsやIndelsをスキャンして同じリード上にあるかどうか調べ、同じリード上にあるときそれらを一つのDelInsとしてコールします。
上図:リードフェージング未使用時
下図:リードフェージング使用時。
図中の最も上部にある3つのリードのミスマッチTとG(A>AT、A>AG)はマージされdelATAinsTTGとしてコールされ(下図中黄色のボックスで示された領域とリード)、残りのリードのミスマッチTとGおよびA(A>AT、A>AG、T>AT)はマージされdelATACTinsTTGCAとしてコールされます(同赤色のボックス)。

MNVs(複数塩基変異)
リードフェージング機能を使って隣接する複数のSNVを統合することにより、MNVs(Multiple Nucleotide Variants:複数塩基変異)をコールできます。また外部バリアントデータベースから既知MNV情報をインポートして、MNVsコールにアノテーションとして付加することも可能です。既知MNVバリアントトラックを参照することで、より信頼性の高いMNVコールを容易に識別できます。

リードフェージングを使用したMNVコール例 (c.641_642 delCA insGC)。
画像下部にある変異レポートの「Phase ID」列より右側の列は、プロジェクトにロードした外部MNVバリアントデータベースの既知MNV情報です。ClinVarなどデフォルトでインポートできるトラックのほか、様々な外部バリアントデータベースからカスタムで既知のバリアント情報をインポートできます。バリアントトラックはリファレンス&トラックマネージャ機能を使ってリファレ ンスゲノムのビルドごとに管理できます。
DelIns(欠失挿入)
リードフェージング機能を使用することで、臨床的に重要なDelInsをコールすることも可能です。フェージングする同一リード上にある個別のバリアントの距離は設定で指定できます。DelInsコールの表記は他のバリアントコールと同様にHGVS(Human Genome Variation Society)命名規則に基づいた表記法でレポートに出力できます。

リードフェージング機能を使用してコールされたEGFRエクソン19欠失変異(p.E746_T751delinsVP)。
画像下部にある変異レポートの「Amino Acid Change」列より右側の列は、プロジェクトにロードした既知のバリアント情報(「ClinVar ID」と「ClinVar Significance」)。
バリアントコールのアノテーションとフィルタリング
バリアントアノテーション
リファレンスゲノムとトラックの一括管理
NextGENeリファレンス&トラックマネージャーでは、リファレンスゲノムとバリアントトラックを一括して管理できます。バリアントトラックはdbSNPやClinVarトラックのデフォルトインポートのほか、カスタムインポートにも対応しているので、様々なバリアントデータベースのインポートが可能です。


複数のトラックからのアノテーションを含むNextGENeバリアントレポート
バリアントのフィルタリング
バリアントトラックを使ったフィルタリング
dbSNPやClinVar、dbNSFP等バリアントデータベース由来情報を使ったバリアントのフィルタリング。各ソースの情報を使ってバリアントコールのフィルタリングを行えます。

リードアライメントビュー付きサンプル間比較

バリアントフィルタリング結果。各サンプルのリードアライメントを見ながらバリアントコールを確認できます。(最大20サンプル)
サンプル間比較 -トリオ解析 -
各サンプルの血縁関係や表現型、バリア ントタイプを指定して、条件に合致したバリアントに絞り込めます。バリアントタイプと血縁関係・表現型の組み合わせを事前に定義した遺伝形式テンプレートを使って条件に合致したバリアントに絞り込むことも可能です。



Compound heterozygousレポート:同一遺伝子内の2つのヘテロ接合性バリアントがサンプルの血縁関係と表現型の設定を満たしている場合、遺伝子内の2つのヘテロ接合性バリアントの考えられるすべての組み合わせが表示されます。
CNVs:HMMと分散を用いたCNVsコール
NextGENeでは、分散値(ノイズ量)と隠れマルコフモデル(Hidden Markov Model : HMM)を使ったサンプル‐コントロールのカバレッジ比に基づくCNV解析が可能です。CNVの推定は指定した領域単位で行われます。NextGENeはまず各領域のカバレッジ比とカバレッジレベルの分布からカバレッジレベルにおける分散値を求め、各領域のカバレッジ比と分散値からCNVを推定します。
このCNVツールはIon AmpliSeqパネルやアジレント・テクノロジー社のHaloPlexターゲットエンリッチメントシステムのようなターゲットシーケンシングデータや、カバレッジ深度が一貫した全エクソームシーケンスデータに適しています。比較に用いる2つのサンプルは、実験条件が可能な限り近いことが理想的です。

CNVグラフ(分散・HMM法)

カバレッジレベル‐カ バレッジ比分布図

カバレッジレベルにおけるカバレッジ比の分散を求め、これらに基いて各領域のカバレッジ比からCNVを推定
SVs/Fusion:Split-read mapping法を用いたSVs/Fusion検出・Breakpoint解析
NextGENeソフトウェアの最新バージョンver.2.4.3(ベータ版)には、Split-read mapping法に基づいた構造多型や融合遺伝子検出機能が搭載されています。本機能では、最初にリファレンス配列にアライメントされたリード内の高ミスマッチ領域を検知し、疑似ペアリードを生成します。生成された疑似ペアリードのうち高ミスマッチ領域側の疑似リードをリファレンスに再マッピング・アライメントして構造多型や融合遺伝子を検出します。オリジナルリード内のbreakpointの位置がはっきり出るのが特徴です。融合遺伝子検出では、ゲノム+mRNAリファレンスを使用します。

検出された融合遺伝子の各遺伝子領域のアライメントはデュアルアライメントビューで表示され、breakpoint前後のリード配列が確認できます。
その他の機能
AutoRunツール
NextGENeでは、AutoRunツールを使った複数サンプルファイルの完全なバッチ処理が可能です。AutoRunツールでは、続けて分析する複数のジョブを迅速に設定でき、複数サンプルを無人で解析できます。
ジョブには、FASTQファイル(.gz含む)の前処理ステップから、リファレンスマッピング、バリアントコール、バリアントコール後のレポーティングやGeneticist Assistantへのエクスポートなど最後のステップまで一貫した処理を含めることができます。すべての設定セットをテンプレートとして保存し、テンプレートとサンプルセットを選択するだけで解析ジョブを作成することも可能です。
作成したジョブは、ジョブ作成後すぐに参照してデータ処理を開始したり、ジョブ検索の時間を指定して指定した時間にデータ処理を開始したりできます。


動作環境
PC
OS: Windows® 10, 11およびServer 2012
CPU:デュアルクアッドコアプロセッサ 以上
動作メモリ:12 GB RAM 以上
必要ストレージ容量:2 TB 空き容量 以上(SSD推奨)
注意:De Novoアセンブリや全ゲノム解析などアプリケーションによっては、データサイズに応じて上記以上の動作メモリが必要になります。事前にご相談ください。
WGS・WES
CPU:最小16コア(150bpリード)、300bpリードではそれ 以上
動作メモリ:32 GB RAM 以上
必要ストレージ容量:入出力用にそれぞれTB 空き容量 以上のSSD
参考
希少疾患WESデータ(100bpPE 18M×2リード)
CPU:Indel Core i7 第10世代(8コア/16スレッド)
動作メモリ:16GB RAM(8GB×2)
ストレージ容量:2 TB のSSD
処理時間:約2時間(リファレンスマッピング~変異レポート生成)
PC
OS: 64 bit Windows® 7, 8 , 10
CPU:Intel Core iシリーズ 第3世代以上
動作メモリ:16 GB RAM
必要HDD容量:250 GB 空き容量(SSD推奨)
ディスプレイ解像度:1,366 x 768 以上
価格・納期等
-
価格:お問い合わせ下さい。
-
納期:弊社受注後約 14営業日以内
日本語マニュアル
※日本語マニュアル(PDF版)は正規商品の内容には含まれず、バイオアップロード合同会社独自の無料サービスとして、商品を使用する目的のみに使用することを条件に商品を購入した方へ差し上げております。

