解析の解説を始める前にテストデータを準備します。
今回は水棲昆虫と魚類のテストデータを準備します。
具体的には,DDBJ(公開データベース)に登録されたSAR形式ファイルからFastq形式の配列データを作成します。
既にNGSの生データ(.fastqファイル)をお持ちの方は実践編2以降の解説に進んでください。
私の解析環境
使用機器:MacBook Pro 14インチ (2023)
チップ:Apple M2 Pro
メモリ:32GB
macOS:Sonoma 14.4.1
SRA-toolsのインストール
SAR形式ファイルからFastq形式の配列データを作成するためには,SAR Toolkitパッケージに含まれるfasterq-dumpが必要です。
まずは,以下の手順でSAR Toolkitパッケージ(SAR-tools)をインストールします。
1. SAR-toolsの公式サイトに従って,下記コマンドを実行してインストール用zipファイルをダウンロードします。
curl --output sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz
2. ご自身のuserフォルダ内にダウンロードされたzipファイルを下記コマンドで解凍します。userフォルダ内に「sratoolkit.3.1.0-mac-x86_64」というフォルダーが作成されていれば解凍が問題なく完了しています。
tar -vxzf sratoolkit.tar.gz
3. Terminal上で操作できるように,下記コマンドでパスを通します。
export PATH=$PATH:$PWD/sratoolkit.3.1.0-mac-x86_64/bin
4.Terminal上で下記コマンドを入力して動作確認を行います。
「/Users/user/sratoolkit.3.1.0-mac-x86_64/bin/fasterq-dump」のようにディレクトリが表示されれば問題なくインストールできています。
which fasterq-dump
renameのインストール
作成したFastq形式のファイル名を簡単に変更できるようにするため,renameパッケージを下記コマンドでインストールしておきます。condaを使用してインストールします。
conda install rename
水棲昆虫のテストデータの準備
それでは,下記の手順でテストデータを作成していきます。まずは水棲昆虫解析用のテストデータを作成します。
今回は以下の論文で取得されたデータをテストデータとして使用しようと思います。
Definitive environmental DNA research on aquatic insects: Analysis optimization using the recently developed MtInsects-16S primers set
DOI:10.1101/2023.06.29.547017
水棲昆虫のユニバーサルプライマーであるMtInsectsを開発された竹中先生の論文です。次世代シーケンサーMiseqを使用して2×300 bp,ペアエンドで取得されています。
この論文の配列データは,DDBJ中にプロジェクトNo.がPRJDB15936で登録されています。
この内,DRA016446に格納されている38個のデータ(DRR481896〜DRR481933)を使ってテスト用の配列データを作成していきます。
1. 下記コマンドでDDBJ(公開データベース)からSARファイルをMacのDownloadsフォルダにダウンロードします。コマンドの中の「./Users/user/Downloads/DRR481$i.sra」はダウンロードされる場所をさしていますので,ご自身のお好みで変更してください。
for i in `seq 896 933`; do prefetch -p DRR481$i --output-file ./Users/user/Downloads/DRR481$i.sra ;done
2. 下記コマンドで,fasterq-dumpを用いてダウンロードしたSARファイルからFastqファイルを作成します。
作成されたFastqファイルはDownloadsフォルダに作成された00fastqgzフォルダに格納されます。
for i in `seq 896 933` ; do fasterq-dump -e 24 ./Users/user/Downloads/DRR481$i.sra --outdir ./Users/user/Downloads/00fastqgz/ ;done
3. 下記コマンドでfastqファイルを圧縮しておきます。
pigz ./Users/user/Downloads/00fastqgz/*.fastq
4. _1.fastqと_2.fastq はシーケンサーから出力された際のR1, R2にあたるファイルです。それぞれFowardプライマーとReverseプライマーで読まれた配列になりますので,renameパッケージを使ってファイル名を変更しておきます。
rename -e 's/_1/_R1/g' ./Users/user/Downloads/00fastqgz/*_1.fastq.gz rename -e 's/_2/_R2/g' ./Users/user/Downloads/00fastqgz/*_2.fastq.gz
これで,水棲昆虫用の配列データ(テストデータ)の準備が完了です。
テストデータの準備が完了したら,容量の大きいSARファイルは削除しておきましょう。
魚類のテストデータの準備
次に魚類解析用のテストデータを作成します。
今回は以下の論文で取得された配列データをテストデータとして使用しようと思います。
The use of citizen science in fish eDNA metabarcoding for evaluating regional biodiversity in a coastal marine region: A pilot study
DOI:10.3897/mbmg.6.80444
魚類のユニバーサルブライマーを開発された宮先生の論文です。次世代シーケンサーMiseqを使用して2×150 bp,ペアエンドで取得されています。
この論文の配列データは,DDBJ中にプロジェクトNo.がPRJDB12394で登録されています。
この内,DRA012840に格納されている6個のデータ(DRR321580〜DRR321585)を使ってテスト用の配列データを作成していきます。
1. 下記コマンドでDDBJ(公開データベース)からSARファイルをMacのDownloadsフォルダにダウンロードします。
for i in `seq 80 85`; do prefetch -p DRR3215$i --output-file ./Users/user/Downloads/DRR3215$i.sra ;done
2. 下記コマンドで,fasterq-dumpを用いてダウンロードしたSARファイルからFastqファイルを作成します。
水棲昆虫の手順と差別化するために,作成されたFastqファイルは01fastqgzフォルダに格納されるように設定します。
for i in `seq 80 85` ; do fasterq-dump -e 24 ./Users/user/Downloads/DRR3215$i.sra --outdir ./Users/user/Downloads/01fastqgz/ ;done
3. 下記コマンドでfastqファイルを圧縮しておきます。
pigz ./Users/user/Downloads/01fastqgz/*.fastq
4. renameパッケージを使ってファイル名を変更しておきます。
rename -e 's/_1/_R1/g' ./Users/user/Downloads/01fastqgz/*_1.fastq.gz rename -e 's/_2/_R2/g' ./Users/user/Downloads/01fastqgz/*_2.fastq.gz
これで,魚類用の配列データの準備は完了です。
最後に
メタバーコーディング解析の解説用のテストデータを準備しました。
手元にデータがない方は,この記事を参考にテストデータを準備してみてください。
データがある方はご自身のデータを活用して解析してみましょう。
次回はQiime2を使った前処理(プライマー・キメラ配列の除去など)の手順を解説していきます。