SNPset

遺伝子名が一列目、属するSNP-IDが二列目に並んだタブ区切りファイルが欲しい

chr1.tss: 一列目が遺伝子名、二列目が領域開始点、三列目が領域終了点のtsv
chr1.bim:一列目が染色体番号、二列目がSNP-ID、四列目が染色体上の位置(plinkのbimフォーマット)

: > chr1.snpset
while read line; do
  arr=(`echo ${line}`)
  gene=${arr[0]}
  start=${arr[1]}
  end=${arr[2]}
  head chr1.bim | \
    gawk \ 
      -v gene=$gene \
      -v start=$start \
      -v end=$end \
      '{if(start<=$4 && $4<=end) \
        {print gene"\t"$2}}' >> chr1.snpset
done < chr1.tss

これで一列目に該当遺伝子名前、二列目にSNP-IDの記載されtsvが手に入る。染色体間での作成には対応していません。

コメント

このブログの人気の投稿

Inverse-normal transformation

SKAT

locuszoom