SNPset
遺伝子名が一列目、属するSNP-IDが二列目に並んだタブ区切りファイルが欲しい
chr1.tss: 一列目が遺伝子名、二列目が領域開始点、三列目が領域終了点のtsv
chr1.bim:一列目が染色体番号、二列目がSNP-ID、四列目が染色体上の位置(plinkのbimフォーマット)
: > chr1.snpset
while read line; do
arr=(`echo ${line}`)
gene=${arr[0]}
start=${arr[1]}
end=${arr[2]}
head chr1.bim | \
gawk \
-v gene=$gene \
-v start=$start \
-v end=$end \
'{if(start<=$4 && $4<=end) \
{print gene"\t"$2}}' >> chr1.snpset
done < chr1.tss
これで一列目に該当遺伝子名前、二列目にSNP-IDの記載されtsvが手に入る。染色体間での作成には対応していません。
コメント
コメントを投稿