Имам два файла и всеки файл има 3 колони и n брой редове (различен брой редове във всеки файл).
всеки изглежда така:
file1
chr1 12 32
chr1 14 30
chr3 10002 89000
chrx 5678900 987654
и този:
file2
chr1 8 15
chr1 10 14
chr1 32 34
втората и третата колона във всеки файл представляват началната и крайната стойност, докато първата колона е име.
Следователно, ако стойността в първата колона (на файл 1) съвпада със стойността в първата колона на файл 2 и тогава скриптът трябва да изчисли дали съществува припокриване (всяка степен на припокриване на диапазона от стойности в колона 2 и 3 във файл1 с диапазон на стойността в колона 2 и 3 на файл 2) от диапазона на стойността във втората и третата колона от файл 1 във файл2.
Желан е резултат като този:
regions from file1 present in file 2
chr1 12 32 present
chr1 14 30 present
chr3 10002 89000 absent
chrx 5678900 987654 absent
Всякакви предложения за манипулиране на awk или скрипт на python... моля, помогнете.