Я пытаюсь манипулировать файлом Fastq. Это выглядит так:
@HWUSI-EAS610:1:1:3:1131#0/1
GATGCTAAGCCCCTAAGGTCATAAGACTGNNANGTC
+
B<ABA<;B@=4A9@:6@96:1??9;>##########
@HWUSI-EAS610:1:1:3:888#0/1
GATAGGACCAAACATCTAACATCTTCCCGNNGNTTC
+
B9>>ABA@B7BB:7?@####################
@HWUSI-EAS610:1:1:4:941#0/1
GCTTAGGAAGGAAGGAAGGAAGGGGTGTTCTGTAGT
+
BBBB:CB=@CB@?BA/@BA;6>BBA8A6A<?A4?B=
...
...
...
@HWUSI-EAS610:1:1:7:1951#0/1
TGATAGATAAGTGCCTACCTGCTTACGTTACTCTCC
+
BB=A6A9>BBB9B;B:B?B@BA@AB@B:74:;8=>7
Мой ожидаемый результат:
@HWUSI-EAS610:1:1:3:1131#0/1
GACNTNNCAGTCTTATGACCTTAGGGGCTTAGCATC
@HWUSI-EAS610:1:1:3:888#0/1
GAANCNNCGGGAAGATGTTAGATGTTTGGTCCTATC
@HWUSI-EAS610:1:1:4:941#0/1
ACTACAGAACACCCCTTCCTTCCTTCCTTCCTAAGC
Итак, строка идентификатора начинается с @HWUSI (т.е. @HWUSI-EAS610:1:1:7:1951#0/1). После каждого идентификатора идет строка с его последовательностью. Теперь я хотел бы получить файл только с каждым идентификатором и его соответствующей последовательностью, и последовательность должна быть обратной и дополнительной. (A=T, T=A, C=G, G=C) С помощью Sed я могу получить всю последовательность, обратную и дополнительную, с помощью команды
sed -n '2~4p' MYFILE.fq | rev | tr ATCG TAGC
Как я могу получить также соответствующий идентификатор?