実践編1. 水棲昆虫と魚類の配列データ(Fastqファイル)の準備

解析の解説を始める前にテストデータを準備します。

今回は水棲昆虫と魚類のテストデータを準備します。

具体的には，DDBJ（公開データベース）に登録されたSAR形式ファイルからFastq形式の配列データを作成します。

既にNGSの生データ（.fastqファイル）をお持ちの方は実践編2以降の解説に進んでください。

Bioinfo-man

私の解析環境
使用機器：MacBook Pro 14インチ (2023)
チップ：Apple M2 Pro
メモリ：32GB
macOS：Sonoma 14.4.1

目次非表示

SRA-toolsのインストール
renameのインストール
水棲昆虫のテストデータの準備
魚類のテストデータの準備
最後に

SRA-toolsのインストール

SAR形式ファイルからFastq形式の配列データを作成するためには，SAR Toolkitパッケージに含まれるfasterq-dumpが必要です。

まずは，以下の手順でSAR Toolkitパッケージ（SAR-tools）をインストールします。

1. SAR-toolsの公式サイトに従って，下記コマンドを実行してインストール用zipファイルをダウンロードします。

curl --output sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz

2. ご自身のuserフォルダ内にダウンロードされたzipファイルを下記コマンドで解凍します。userフォルダ内に「sratoolkit.3.1.0-mac-x86_64」というフォルダーが作成されていれば解凍が問題なく完了しています。

tar -vxzf sratoolkit.tar.gz

3. Terminal上で操作できるように，下記コマンドでパスを通します。

export PATH=$PATH:$PWD/sratoolkit.3.1.0-mac-x86_64/bin

4.Terminal上で下記コマンドを入力して動作確認を行います。

「/Users/user/sratoolkit.3.1.0-mac-x86_64/bin/fasterq-dump」のようにディレクトリが表示されれば問題なくインストールできています。

which fasterq-dump

renameのインストール

作成したFastq形式のファイル名を簡単に変更できるようにするため，renameパッケージを下記コマンドでインストールしておきます。condaを使用してインストールします。

conda install rename

水棲昆虫のテストデータの準備

それでは，下記の手順でテストデータを作成していきます。まずは水棲昆虫解析用のテストデータを作成します。

今回は以下の論文で取得されたデータをテストデータとして使用しようと思います。

Definitive environmental DNA research on aquatic insects: Analysis optimization using the recently developed MtInsects-16S primers set

DOI：10.1101/2023.06.29.547017

水棲昆虫のユニバーサルプライマーであるMtInsectsを開発された竹中先生の論文です。次世代シーケンサーMiseqを使用して2×300 bp，ペアエンドで取得されています。

この論文の配列データは，DDBJ中にプロジェクトNo.がPRJDB15936で登録されています。

この内，DRA016446に格納されている38個のデータ（DRR481896〜DRR481933）を使ってテスト用の配列データを作成していきます。

1. 下記コマンドでDDBJ（公開データベース）からSARファイルをMacのDownloadsフォルダにダウンロードします。コマンドの中の「./Users/user/Downloads/DRR481$i.sra」はダウンロードされる場所をさしていますので，ご自身のお好みで変更してください。

for i in `seq 896 933`; do prefetch -p DRR481$i --output-file ./Users/user/Downloads/DRR481$i.sra ;done

2. 下記コマンドで，fasterq-dumpを用いてダウンロードしたSARファイルからFastqファイルを作成します。

作成されたFastqファイルはDownloadsフォルダに作成された00fastqgzフォルダに格納されます。

for i in `seq 896 933` ; do fasterq-dump -e 24 ./Users/user/Downloads/DRR481$i.sra --outdir ./Users/user/Downloads/00fastqgz/ ;done

3. 下記コマンドでfastqファイルを圧縮しておきます。

pigz ./Users/user/Downloads/00fastqgz/*.fastq

4. _1.fastqと_2.fastq はシーケンサーから出力された際のR1, R2にあたるファイルです。それぞれFowardプライマーとReverseプライマーで読まれた配列になりますので，renameパッケージを使ってファイル名を変更しておきます。

rename -e 's/_1/_R1/g' ./Users/user/Downloads/00fastqgz/*_1.fastq.gz
rename -e 's/_2/_R2/g' ./Users/user/Downloads/00fastqgz/*_2.fastq.gz

これで，水棲昆虫用の配列データ（テストデータ）の準備が完了です。

テストデータの準備が完了したら，容量の大きいSARファイルは削除しておきましょう。

魚類のテストデータの準備

次に魚類解析用のテストデータを作成します。

今回は以下の論文で取得された配列データをテストデータとして使用しようと思います。

The use of citizen science in fish eDNA metabarcoding for evaluating regional biodiversity in a coastal marine region: A pilot study

DOI：10.3897/mbmg.6.80444

魚類のユニバーサルブライマーを開発された宮先生の論文です。次世代シーケンサーMiseqを使用して2×150 bp，ペアエンドで取得されています。

この論文の配列データは，DDBJ中にプロジェクトNo.がPRJDB12394で登録されています。

この内，DRA012840に格納されている6個のデータ（DRR321580〜DRR321585）を使ってテスト用の配列データを作成していきます。

1. 下記コマンドでDDBJ（公開データベース）からSARファイルをMacのDownloadsフォルダにダウンロードします。

for i in `seq 80 85`; do prefetch -p DRR3215$i --output-file ./Users/user/Downloads/DRR3215$i.sra ;done

2. 下記コマンドで，fasterq-dumpを用いてダウンロードしたSARファイルからFastqファイルを作成します。

水棲昆虫の手順と差別化するために，作成されたFastqファイルは01fastqgzフォルダに格納されるように設定します。

for i in `seq 80 85` ; do fasterq-dump -e 24 ./Users/user/Downloads/DRR3215$i.sra --outdir ./Users/user/Downloads/01fastqgz/ ;done

3. 下記コマンドでfastqファイルを圧縮しておきます。

pigz ./Users/user/Downloads/01fastqgz/*.fastq

4. renameパッケージを使ってファイル名を変更しておきます。

rename -e 's/_1/_R1/g' ./Users/user/Downloads/01fastqgz/*_1.fastq.gz
rename -e 's/_2/_R2/g' ./Users/user/Downloads/01fastqgz/*_2.fastq.gz

これで，魚類用の配列データの準備は完了です。

最後に

メタバーコーディング解析の解説用のテストデータを準備しました。

手元にデータがない方は，この記事を参考にテストデータを準備してみてください。

データがある方はご自身のデータを活用して解析してみましょう。

次回はQiime2を使った前処理（プライマー・キメラ配列の除去など）の手順を解説していきます。

SRA-toolsのインストール

renameのインストール

水棲昆虫のテストデータの準備

魚類のテストデータの準備

最後に

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル