У меня есть большой текстовый файл, строки которого составлены в таком формате:
Query: 1586 cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc 1645
Sbjct: 27455708 cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc 27455649
Query: 1646 agcctccaggcccccaactccgcccagcctctccccgctctggatcctgcactctaacac 1705
Sbjct: 27455648 agcctccaggcccccaactccgcccagcctctccccgctctggatcctgcactctaacac 27455589
Query: 1706 tcgactctgctgctcatgggaagaacagaattgctcctgcatgcaactaattcaataaaa 1765
Sbjct: 27455588 tcgactctgctgctcatgggaagaacagaattgctcctgcatgcaactaattcaataaaa 27455529
Для каждой строки я хочу иметь возможность извлекать только различные последовательности agtc, удаляя другой символ (запрос, sbjct и различные числа), чтобы окончательная строка выглядела так
line1 = cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc
line2 = cccaagatgagctgcagccccccagagagagctctgcacgtcaccaagtaaccaggcccc
etc...
Я работаю над этим некоторое время и не могу заставить его работать. Я пробовал модуль re и .translate
, но безрезультатно. Я программирую на питоне 3.4. Спасибо!
split()
- person John La Rooy   schedule 12.10.2014re
? что ты пробовал? - person salmanwahed   schedule 12.10.2014