実践編1. 水棲昆虫と魚類の配列データ(Fastqファイル)の準備

解析の解説を始める前にテストデータを準備します。

今回は水棲昆虫と魚類のテストデータを準備します。

具体的には,DDBJ(公開データベース)に登録されたSAR形式ファイルからFastq形式の配列データを作成します。

既にNGSの生データ(.fastqファイル)をお持ちの方は実践編2以降の解説に進んでください。

Bioinfo-man
Bioinfo-man

私の解析環境
使用機器:MacBook Pro 14インチ (2023)
チップ:Apple M2 Pro
メモリ:32GB
macOS:Sonoma 14.4.1

SRA-toolsのインストール

SAR形式ファイルからFastq形式の配列データを作成するためには,SAR Toolkitパッケージに含まれるfasterq-dumpが必要です。

まずは,以下の手順でSAR Toolkitパッケージ(SAR-tools)をインストールします。

1. SAR-toolsの公式サイトに従って,下記コマンドを実行してインストール用zipファイルをダウンロードします。

curl --output sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz

2. ご自身のuserフォルダ内にダウンロードされたzipファイルを下記コマンドで解凍します。userフォルダ内に「sratoolkit.3.1.0-mac-x86_64」というフォルダーが作成されていれば解凍が問題なく完了しています。

tar -vxzf sratoolkit.tar.gz

3. Terminal上で操作できるように,下記コマンドでパスを通します。

export PATH=$PATH:$PWD/sratoolkit.3.1.0-mac-x86_64/bin

4.Terminal上で下記コマンドを入力して動作確認を行います。

「/Users/user/sratoolkit.3.1.0-mac-x86_64/bin/fasterq-dump」のようにディレクトリが表示されれば問題なくインストールできています。

which fasterq-dump

renameのインストール

作成したFastq形式のファイル名を簡単に変更できるようにするため,renameパッケージを下記コマンドでインストールしておきます。condaを使用してインストールします。

conda install rename

水棲昆虫のテストデータの準備

それでは,下記の手順でテストデータを作成していきます。まずは水棲昆虫解析用のテストデータを作成します。

今回は以下の論文で取得されたデータをテストデータとして使用しようと思います。

Definitive environmental DNA research on aquatic insects: Analysis optimization using the recently developed MtInsects-16S primers set

DOI:10.1101/2023.06.29.547017

水棲昆虫のユニバーサルプライマーであるMtInsectsを開発された竹中先生の論文です。次世代シーケンサーMiseqを使用して2×300 bp,ペアエンドで取得されています。

この論文の配列データは,DDBJ中にプロジェクトNo.がPRJDB15936で登録されています。

この内,DRA016446に格納されている38個のデータ(DRR481896〜DRR481933)を使ってテスト用の配列データを作成していきます。

1. 下記コマンドでDDBJ(公開データベース)からSARファイルをMacのDownloadsフォルダにダウンロードします。コマンドの中の「./Users/user/Downloads/DRR481$i.sra」はダウンロードされる場所をさしていますので,ご自身のお好みで変更してください。

for i in `seq 896 933`; do prefetch -p DRR481$i --output-file ./Users/user/Downloads/DRR481$i.sra ;done

2. 下記コマンドで,fasterq-dumpを用いてダウンロードしたSARファイルからFastqファイルを作成します。

作成されたFastqファイルはDownloadsフォルダに作成された00fastqgzフォルダに格納されます。

for i in `seq 896 933` ; do fasterq-dump -e 24 ./Users/user/Downloads/DRR481$i.sra --outdir ./Users/user/Downloads/00fastqgz/ ;done

3. 下記コマンドでfastqファイルを圧縮しておきます。

pigz ./Users/user/Downloads/00fastqgz/*.fastq

4. _1.fastqと_2.fastq はシーケンサーから出力された際のR1, R2にあたるファイルです。それぞれFowardプライマーとReverseプライマーで読まれた配列になりますので,renameパッケージを使ってファイル名を変更しておきます。

rename -e 's/_1/_R1/g' ./Users/user/Downloads/00fastqgz/*_1.fastq.gz
rename -e 's/_2/_R2/g' ./Users/user/Downloads/00fastqgz/*_2.fastq.gz

これで,水棲昆虫用の配列データ(テストデータ)の準備が完了です。

テストデータの準備が完了したら,容量の大きいSARファイルは削除しておきましょう。

魚類のテストデータの準備

次に魚類解析用のテストデータを作成します。

今回は以下の論文で取得された配列データをテストデータとして使用しようと思います。

The use of citizen science in fish eDNA metabarcoding for evaluating regional biodiversity in a coastal marine region: A pilot study

DOI:10.3897/mbmg.6.80444

魚類のユニバーサルブライマーを開発された宮先生の論文です。次世代シーケンサーMiseqを使用して2×150 bp,ペアエンドで取得されています。

この論文の配列データは,DDBJ中にプロジェクトNo.がPRJDB12394で登録されています。

この内,DRA012840に格納されている6個のデータ(DRR321580〜DRR321585)を使ってテスト用の配列データを作成していきます。

1. 下記コマンドでDDBJ(公開データベース)からSARファイルをMacのDownloadsフォルダにダウンロードします。

for i in `seq 80 85`; do prefetch -p DRR3215$i --output-file ./Users/user/Downloads/DRR3215$i.sra ;done

2. 下記コマンドで,fasterq-dumpを用いてダウンロードしたSARファイルからFastqファイルを作成します。

水棲昆虫の手順と差別化するために,作成されたFastqファイルは01fastqgzフォルダに格納されるように設定します。

for i in `seq 80 85` ; do fasterq-dump -e 24 ./Users/user/Downloads/DRR3215$i.sra --outdir ./Users/user/Downloads/01fastqgz/ ;done

3. 下記コマンドでfastqファイルを圧縮しておきます。

pigz ./Users/user/Downloads/01fastqgz/*.fastq

4. renameパッケージを使ってファイル名を変更しておきます。

rename -e 's/_1/_R1/g' ./Users/user/Downloads/01fastqgz/*_1.fastq.gz
rename -e 's/_2/_R2/g' ./Users/user/Downloads/01fastqgz/*_2.fastq.gz

これで,魚類用の配列データの準備は完了です。

最後に

メタバーコーディング解析の解説用のテストデータを準備しました。

手元にデータがない方は,この記事を参考にテストデータを準備してみてください。

データがある方はご自身のデータを活用して解析してみましょう。

次回はQiime2を使った前処理(プライマー・キメラ配列の除去など)の手順を解説していきます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA