Преобразование двоичных файлов в ascii в Python

У меня есть куча бинарных файлов, содержащих данные в следующем формате:

i\xffhh\xffhh\xffhh\xffih\xffhh\xffhh\xffhh\xffhh\xffhi\xffii\xffjj\xffjj\xffjj\xffjk\xffkk\xffkk\xffkl\xffll\xffmm\xffmn\xffnn\xffon\xffno\xffop\xffop\xffpp\xffqq\xffrq\xffrs\xffst\xfftt\xfftt\xffuv\xffvu\xffuv\xffvv\xffvw\xffwx\xffwx\xffxy\xffyy\xffyz\xffz{\xffz{\xff||\xff}|\xff~}\xff}}\xff~~\xff~~\xff~\x7f\xff\x7f\x7f\xff\x7f\x7f\xff\x7f\x7f\xff\x80\x80\xff\x80\x81\xff\x81\x80\xff\x81\x81\xff\x81\x82\xff\x82\x82\xff\x82\x82\xff\x82\x83\xff\x83\x83\xff\x83\x83\xff\x83\x84\xff\x83\x84\xff\x84\x85\xff\x85\x85\xff\x86\x85\xff\x86\x87\xff\x87\x87\xff\x87\x87\xff\x88\x87\xff\x88\x89\xff\x88\x89\xff\x89\x8a\xff\x89\x8a\xff\x8a\x8b\xff\x8b\x8b\xff\x8b\x8c\xff\x8d\x8d\xff\x8d\x8d\xff\x8e\x8e\xff\x8e\x8f\xff\x8f\x8f

Предполагается, что это показания датчика давления при ходьбе человека, поэтому я предполагаю, что это числа, но я хочу преобразовать их в ascii, чтобы иметь некоторое представление о том, что это такое. Как их преобразовать? В каком формате они сейчас?

РЕДАКТИРОВАТЬ: Ссылка на файл, указанный здесь (Ссылка)


person GobiasKoffi    schedule 18.11.2010    source источник
comment
Это интересно, потому что кажется, что они начинают иметь смысл с первого \x7f. Я предполагаю, что вы смотрите на это в редакторе, который переводит некоторые двоичные файлы в символы за пределами шестнадцатеричного диапазона (например, ~ тильда не является шестнадцатеричным символом). Можете ли вы показать нам дамп из настоящего шестнадцатеричного редактора, ссылку на файл или узнать формат файла, но посмотрев документацию для используемого вами устройства?   -  person marr75    schedule 18.11.2010
comment
Может быть 3 байта на выборку, причем средний байт по какой-то причине всегда равен 255. С какого устройства поступают данные?   -  person Gareth Rees    schedule 18.11.2010
comment
Здорово! Я пришел к этому вопросу, потому что хочу взломать файл калибровки (.cal3) датчика давления FootWork. Маленький мир!   -  person heltonbiker    schedule 09.08.2011


Ответы (3)


Вы не можете угадать формат, просто открыв двоичный файл. Вам нужно будет получить информацию о том, как хранятся данные для конкретных показаний датчика давления.

Конечно, когда вы знаете формат, легко прочитать файл в двоичном режиме, а затем получить из него все значимые данные.

FILE = open(filename,"rb")
FILE.read(numBytes)
person pyfunc    schedule 18.11.2010
comment
... а для декодирования данных после чтения вы можете использовать модуль struct: docs.python.org /библиотека/struct.html - person che; 18.11.2010
comment
Это ответ? Вы получаете за это 45 зоркмидов? - person John Machin; 16.12.2010
comment
Винсент написал: я получил ошибку numBytes не определено. Ответ: NumBytes — это целое число, представляющее количество байтов для чтения. Если файл небольшой, вы можете оставить это поле пустым, чтобы прочитать весь файл. - person cadvena; 27.06.2016

Я абсолютно потрясен и ошеломлен, и ничуть не поражен всей этой чепухой типа "у вас есть такие буквы, как hh, которые не должны быть частью шестнадцатеричного числа" и "они, кажется, начинают иметь смысл с первого \x7f" . Никто не видел вывод repr()?

Ниже показано, как это могло закончиться, игнорируя \xff, который кажется просто шумом:

>>> pressure = [120,121,122,123,124,125,126,127,128,129,130,131]
>>> import struct
>>> some_bytes = struct.pack("12B", *pressure)
>>> print repr(some_bytes)
'xyz{|}~\x7f\x80\x81\x82\x83'
>>>

Итак, давайте попробуем вернуться из файла:

>>> guff = open('your_file.bin', 'rb').read()
>>> cleaned = guff.replace("\xff", "")
>>> cleaned
'ihhhhhhihhhhhhhhhhiiijjjjjjjkkkkkklllmmmnnnonnoopopppqqrqrsstttttuvvuuvvvvwwxwx
xyyyyzz{z{||}|~}}}~~~~~\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x80\x80\x80\x81\x81\x80\x81\
x81\x81\x82\x82\x82\x82\x82\x82\x83\x83\x83\x83\x83\x83\x84\x83\x84\x84\x85\x85\
x85\x86\x85\x86\x87\x87\x87\x87\x87\x88\x87\x88\x89\x88\x89\x89\x8a\x89\x8a\x8a\
x8b\x8b\x8b\x8b\x8c\x8d\x8d\x8d\x8d\x8e\x8e\x8e\x8f\x8f\x8f'
# Note that lines wrap at column 80 in a Windows "Command Prompt" window ...
>>> pressure = [ord(c) for c in cleaned]
>>> pressure
[105, 104, 104, 104, 104, 104, 104, 105, 104, 104, 104, 104, 104, 104, 104, 104,
 104, 104, 105, 105, 105, 106, 106, 106, 106, 106, 106, 106, 107, 107, 107, 107,
 107, 107, 108, 108, 108, 109, 109, 109, 110, 110, 110, 111, 110, 110, 111, 111,
 112, 111, 112, 112, 112, 113, 113, 114, 113, 114, 115, 115, 116, 116, 116, 116,
 116, 117, 118, 118, 117, 117, 118, 118, 118, 118, 119, 119, 120, 119, 120, 120,
 121, 121, 121, 121, 122, 122, 123, 122, 123, 124, 124, 125, 124, 126, 125, 125,
 125, 126, 126, 126, 126, 126, 127, 127, 127, 127, 127, 127, 127, 128, 128, 128,
 129, 129, 128, 129, 129, 129, 130, 130, 130, 130, 130, 130, 131, 131, 131, 131,
 131, 131, 132, 131, 132, 132, 133, 133, 133, 134, 133, 134, 135, 135, 135, 135,
 135, 136, 135, 136, 137, 136, 137, 137, 138, 137, 138, 138, 139, 139, 139, 139,
 140, 141, 141, 141, 141, 142, 142, 142, 143, 143, 143]
>>>

Вам все равно нужно прочитать документы для оборудования, чтобы узнать, каков масштабный коэффициент для умножения этих значений 0-254.

Вы заметите, что производные числа каждый раз меняются на +1, 0 или -1. Это удобно согласуется с гипотезой о том, что на чтение приходится всего 1 байт, а не два или более байта на чтение.

Еще одна мысль: возможно, \xff является сигналом начала или окончания, и в каждом цикле сообщается о двух значениях (начало, остановка) или (датчик-A, датчик-B).

person John Machin    schedule 16.12.2010

Первая часть выглядит очень странно. Обычно число, такое как \x8e, является просто кодом байта в шестнадцатеричном формате, за исключением того, что в первой части у вас есть такие буквы, как hh, которые не должны быть частью шестнадцатеричного числа.

Но для второй части вы можете сделать что-то вроде:

hex_list = r"\x7f\xff\x7f\x7f\xff\x7f\x7f\xff\x7f\x7f\xff\x80\x80\xff\x80\x81\xff\x81\x80\xff\x81\x81\xff\x81\x82\xff\x82\x82\xff\x82\x82\xff\x82\x83\xff\x83\x83\xff\x83\x83\xff\x83\x84\xff\x83\x84\xff\x84\x85\xff\x85\x85\xff\x86\x85\xff\x86\x87\xff\x87\x87\xff\x87\x87\xff\x88\x87\xff\x88\x89\xff\x88\x89\xff\x89\x8a\xff\x89\x8a\xff\x8a\x8b\xff\x8b\x8b\xff\x8b\x8c\xff\x8d\x8d\xff\x8d\x8d\xff\x8e\x8e\xff\x8e\x8f\xff\x8f\x8f"
int_list =  [int(hex,16) for hex in hex_list.replace('\\', ';0').split(';') if hex != '']

Обратите внимание, что вы всегда получаете число от 127 до 143, за исключением 255 (\xff).

person dr jimbob    schedule 18.11.2010