Лучший способ конвертировать размеры файлов в Python

Я использую библиотеку, которая читает файл и возвращает его размер в байтах.

Этот размер файла затем отображается для конечного пользователя; чтобы им было легче понять это, я явно конвертирую размер файла в MB, разделив его на 1024.0 * 1024.0. Конечно, это работает, но мне интересно, есть ли лучший способ сделать это в Python?

Под лучшим я имею в виду, возможно, функцию stdlib, которая может управлять размерами в соответствии с типом, который я хочу. Например, если я укажу MB, он автоматически разделит его на 1024.0 * 1024.0. Что-нибудь в этом роде.


person user225312    schedule 04.03.2011    source источник
comment
Так что напишите один. Также обратите внимание, что многие системы теперь используют MB для обозначения 10 ^ 6 вместо 2 ^ 20.   -  person tc.    schedule 04.03.2011
comment
@A A, @tc: Имейте в виду, что стандарты SI и IEC - kB (Kilo) for 1.000 Byte и KiB (Kibi) for 1.024 Byte. См. en.wikipedia.org/wiki/Kibibyte.   -  person Bobby    schedule 04.03.2011
comment
@Bobby: kB на самом деле означает килобель, равный 10000 дБ. Байт не используется в системе СИ. IIRC, IEC рекомендует KiB, но не определяет kB или KB.   -  person tc.    schedule 12.03.2011
comment
@tc. Префикс kilo определяется SI как 1000. IEC определил kB и т. Д., Чтобы использовать префикс SI вместо 2 ^ 10.   -  person ford    schedule 12.02.2013
comment
@fizzisist: цитировать? IEC установил KiB / MiB / и т. Д., Но, насколько мне известно, не существует международного стандарта, определяющего кБ / МБ / и т. Д., Кроме SI, где кБ / МБ означает килобел / мегабел (так же, как дБ означает децибел). В любом случае это было бы неразумно, так как MB / GB уже давно является неоднозначным.   -  person tc.    schedule 18.02.2013
comment
Я имею в виду, что префиксы обычно определяются SI, а сокращения для размера данных - нет: Physics .nist.gov / cuu / Units / prefixes.html. Они определены IEC: Physics.nist.gov/cuu/Units/binary.html < / а>   -  person ford    schedule 19.02.2013
comment
@tc. В SI четко указано, что префиксы SI относятся строго к степеням 10 и не должны использоваться для степеней 2. Например, 1 килобит не должен использоваться для представления 1024 битов.   -  person endolith    schedule 18.01.2017


Ответы (12)


Существует hurry.filesize, который принимает размер в байтах и ​​создает красивую строку. если оно.

>>> from hurry.filesize import size
>>> size(11000)
'10K'
>>> size(198283722)
'189M'

Или, если вы хотите 1K == 1000 (что предполагает большинство пользователей):

>>> from hurry.filesize import size, si
>>> size(11000, system=si)
'11K'
>>> size(198283722, system=si)
'198M'

Он также поддерживает IEC (но это не было задокументировано):

>>> from hurry.filesize import size, iec
>>> size(11000, system=iec)
'10Ki'
>>> size(198283722, system=iec)
'189Mi'

Поскольку он написан Великолепным Мартином Фаассеном, код небольшой, понятный и расширяемый. Написать свою собственную систему очень просто.

Вот один из них:

mysystem = [
    (1024 ** 5, ' Megamanys'),
    (1024 ** 4, ' Lotses'),
    (1024 ** 3, ' Tons'), 
    (1024 ** 2, ' Heaps'), 
    (1024 ** 1, ' Bunches'),
    (1024 ** 0, ' Thingies'),
    ]

Используется так:

>>> from hurry.filesize import size
>>> size(11000, system=mysystem)
'10 Bunches'
>>> size(198283722, system=mysystem)
'189 Heaps'
person Lennart Regebro    schedule 04.03.2011
comment
Идеально! Больше чем желание заставить это работать в моем случае, я хотел знать, что есть что-то вроде этого. - person user225312; 04.03.2011
comment
Хм, теперь мне нужен другой, чтобы пойти другим путем. От 1 кб до 1024 (целое). - person mlissner; 09.07.2018
comment
Работает только в python 2 - person e-info128; 18.02.2019
comment
Этот пакет может быть крутым, но странная лицензия и тот факт, что в Интернете нет исходного кода, делают его тем, чего я бы очень рад избежать. А также, похоже, поддерживает только python2. - person Almog Cohen; 03.04.2019
comment
@AlmogCohen, источник находится в сети, доступен прямо из PyPI (у некоторых пакетов нет репозитория Github, только страница PyPI), и лицензия не такая уж непонятная, ZPL - это публичная лицензия Zope, которая, насколько мне известно , BSD-подобный. Я согласен с тем, что само лицензирование является странным: нет стандартного файла LICENSE.txt и нет преамбулы в верхней части каждого исходного файла. - person sleblanc; 20.05.2019
comment
Можно ли получить всю конверсию в MB, используя hurry.filesize? @Lennart Regebro - person alper; 02.03.2020
comment
@alper Да. Вы можете настроить любую систему, какую захотите. Если вам нужен ТОЛЬКО МБ, вам не нужно спешить.filesize, просто разделите его на мегабайт. - person Lennart Regebro; 09.03.2020
comment
Чтобы получить мегабайт, я выполнил следующее уравнение, используя оператор побитового сдвига: MBFACTOR = float(1 << 20); mb= int(size_in_bytes) / MBFACTOR @LennartRegebro - person alper; 09.03.2020

Вот что я использую:

import math

def convert_size(size_bytes):
   if size_bytes == 0:
       return "0B"
   size_name = ("B", "KB", "MB", "GB", "TB", "PB", "EB", "ZB", "YB")
   i = int(math.floor(math.log(size_bytes, 1024)))
   p = math.pow(1024, i)
   s = round(size_bytes / p, 2)
   return "%s %s" % (s, size_name[i])

NB: размер должен быть отправлен в байтах.

person James    schedule 11.02.2013
comment
Если вы отправляете размер в байтах, просто добавьте B в качестве первого элемента size_name. - person tuxGurl; 25.03.2013
comment
Когда у вас 0 байт файла, он не работает. log (0, 1024) не определен! Вы должны проверить регистр 0 байтов перед этим оператором i = int (math.floor (math.log (size, 1024))). - person genclik27; 07.05.2014
comment
genclik - ты прав. Я только что отправил небольшое изменение, которое исправит это и включит преобразование из байтов. Спасибо, Сапам, за оригинал - person FarmerGedden; 22.08.2014
comment
Привет @WHK, поскольку tuxGurl упомянул, что это простое решение. - person James; 25.01.2016
comment
На самом деле имена размеров должны быть (B, KiB, MiB, GiB, TiB, PiB, EiB, ZiB, YiB). См. en.wikipedia.org/wiki/Mebibyte для получения дополнительной информации. - person Alex; 06.12.2019
comment
используя это решение - person Ajay Kumar; 06.01.2020

Вместо делителя размера 1024 * 1024 вы можете использовать << побитовое оператор сдвига, т.е. 1<<20 для получения мегабайт, 1<<30 для получения гигабайт и т. д.

В простейшем сценарии у вас может быть, например, константа MBFACTOR = float(1<<20), которую затем можно использовать с байтами, например: megas = size_in_bytes/MBFACTOR.

Обычно все, что вам нужно, это мегабайты, иначе можно использовать что-то вроде этого:

# bytes pretty-printing
UNITS_MAPPING = [
    (1<<50, ' PB'),
    (1<<40, ' TB'),
    (1<<30, ' GB'),
    (1<<20, ' MB'),
    (1<<10, ' KB'),
    (1, (' byte', ' bytes')),
]


def pretty_size(bytes, units=UNITS_MAPPING):
    """Get human-readable file sizes.
    simplified version of https://pypi.python.org/pypi/hurry.filesize/
    """
    for factor, suffix in units:
        if bytes >= factor:
            break
    amount = int(bytes / factor)

    if isinstance(suffix, tuple):
        singular, multiple = suffix
        if amount == 1:
            suffix = singular
        else:
            suffix = multiple
    return str(amount) + suffix

print(pretty_size(1))
print(pretty_size(42))
print(pretty_size(4096))
print(pretty_size(238048577))
print(pretty_size(334073741824))
print(pretty_size(96995116277763))
print(pretty_size(3125899904842624))

## [Out] ###########################
1 byte
42 bytes
4 KB
227 MB
311 GB
88 TB
2 PB
person ccpizza    schedule 16.10.2012
comment
Разве это не >>? - person Tjorriemorrie; 08.08.2014
comment
@Tjorriemorrie: это должен быть сдвиг влево, сдвиг вправо сбросит единственный бит и приведет к 0. - person ccpizza; 06.04.2018
comment
Блестящий ответ. Спасибо. - person Borislav Aymaliev; 08.08.2018
comment
Я знаю, что это старый, но будет ли это правильным использованием? def convert_to_mb (data_b): print (data_b / (1 ‹---------------- 20)) - person roastbeeef; 27.03.2019

Вот компактная функция для расчета размера

def GetHumanReadable(size,precision=2):
    suffixes=['B','KB','MB','GB','TB']
    suffixIndex = 0
    while size > 1024 and suffixIndex < 4:
        suffixIndex += 1 #increment the index of the suffix
        size = size/1024.0 #apply the division
    return "%.*f%s"%(precision,size,suffixes[suffixIndex])

Для получения более подробных сведений о выводе и наоборот см .: http://code.activestate.com/recipes/578019-bytes-to-human-human-to-bytes-converter/

person Pavan Gupta    schedule 14.08.2015
comment
Оператор while следует изменить на while size >= 1024 and index < len(suffixes):, иначе функция вернет, например, 1024.0KB вместо 1.0MB. - person AnythingIsFine; 14.05.2021

Вот несколько простых в копировании одинарных вкладышей, которые можно использовать, если вы уже знаете, какой размер блока вам нужен. Если вы ищете более общую функцию с несколькими хорошими опциями, см. Мое обновление за февраль 2021 года далее ...

Байтов

print ('{:,.0f}'.format(os.path.getsize(filepath))+" B")

Килобиты

print ('{:,.0f}'.format(os.path.getsize(filepath)/float(1<<7))+" kb")

Килобайт

print ('{:,.0f}'.format(os.path.getsize(filepath)/float(1<<10))+" KB")

Мегабит

print ('{:,.0f}'.format(os.path.getsize(filepath)/float(1<<17))+" mb")

Мегабайт

print ('{:,.0f}'.format(os.path.getsize(filepath)/float(1<<20))+" MB")

Гигабит

print ('{:,.0f}'.format(os.path.getsize(filepath)/float(1<<27))+" gb")

Гигабайт

print ('{:,.0f}'.format(os.path.getsize(filepath)/float(1<<30))+" GB")

Терабайт

print ('{:,.0f}'.format(os.path.getsize(filepath)/float(1<<40))+" TB")

ОБНОВЛЕНИЕ ФЕВРАЛЯ 2021 г. Вот мои обновленные и уточненные функции для а) получения размера файла / папки, б) преобразования в желаемые единицы:

from pathlib import Path

def get_path_size(path = Path('.'), recursive=False):
    """
    Gets file size, or total directory size

    Parameters
    ----------
    path: str | pathlib.Path
        File path or directory/folder path

    recursive: bool
        True -> use .rglob i.e. include nested files and directories
        False -> use .glob i.e. only process current directory/folder

    Returns
    -------
    int:
        File size or recursive directory size in bytes
        Use cleverutils.format_bytes to convert to other units e.g. MB
    """
    path = Path(path)
    if path.is_file():
        size = path.stat().st_size
    elif path.is_dir():
        path_glob = path.rglob('*.*') if recursive else path.glob('*.*')
        size = sum(file.stat().st_size for file in path_glob)
    return size


def format_bytes(bytes, unit, SI=False):
    """
    Converts bytes to common units such as kb, kib, KB, mb, mib, MB

    Parameters
    ---------
    bytes: int
        Number of bytes to be converted

    unit: str
        Desired unit of measure for output


    SI: bool
        True -> Use SI standard e.g. KB = 1000 bytes
        False -> Use JEDEC standard e.g. KB = 1024 bytes

    Returns
    -------
    str:
        E.g. "7 MiB" where MiB is the original unit abbreviation supplied
    """
    if unit.lower() in "b bit bits".split():
        return f"{bytes*8} {unit}"
    unitN = unit[0].upper()+unit[1:].replace("s","")  # Normalised
    reference = {"Kb Kib Kibibit Kilobit": (7, 1),
                 "KB KiB Kibibyte Kilobyte": (10, 1),
                 "Mb Mib Mebibit Megabit": (17, 2),
                 "MB MiB Mebibyte Megabyte": (20, 2),
                 "Gb Gib Gibibit Gigabit": (27, 3),
                 "GB GiB Gibibyte Gigabyte": (30, 3),
                 "Tb Tib Tebibit Terabit": (37, 4),
                 "TB TiB Tebibyte Terabyte": (40, 4),
                 "Pb Pib Pebibit Petabit": (47, 5),
                 "PB PiB Pebibyte Petabyte": (50, 5),
                 "Eb Eib Exbibit Exabit": (57, 6),
                 "EB EiB Exbibyte Exabyte": (60, 6),
                 "Zb Zib Zebibit Zettabit": (67, 7),
                 "ZB ZiB Zebibyte Zettabyte": (70, 7),
                 "Yb Yib Yobibit Yottabit": (77, 8),
                 "YB YiB Yobibyte Yottabyte": (80, 8),
                 }
    key_list = '\n'.join(["     b Bit"] + [x for x in reference.keys()]) +"\n"
    if unitN not in key_list:
        raise IndexError(f"\n\nConversion unit must be one of:\n\n{key_list}")
    units, divisors = [(k,v) for k,v in reference.items() if unitN in k][0]
    if SI:
        divisor = 1000**divisors[1]/8 if "bit" in units else 1000**divisors[1]
    else:
        divisor = float(1 << divisors[0])
    value = bytes / divisor
    if value != 1 and len(unitN) > 3:
            unitN += "s" # Create plural unit of measure
    return "{:,.0f}".format(value) + " " + unitN


# Tests 
>>> assert format_bytes(1,"b") == '8 b'
>>> assert format_bytes(1,"bits") == '8 bits'
>>> assert format_bytes(1024, "kilobyte") == "1 Kilobyte"
>>> assert format_bytes(1024, "kB") == "1 KB"
>>> assert format_bytes(7141000, "mb") == '54 Mb'
>>> assert format_bytes(7141000, "mib") == '54 Mib'
>>> assert format_bytes(7141000, "Mb") == '54 Mb'
>>> assert format_bytes(7141000, "MB") == '7 MB'
>>> assert format_bytes(7141000, "mebibytes") == '7 Mebibytes'
>>> assert format_bytes(7141000, "gb") == '0 Gb'
>>> assert format_bytes(1000000, "kB") == '977 KB'
>>> assert format_bytes(1000000, "kB", SI=True) == '1,000 KB'
>>> assert format_bytes(1000000, "kb") == '7,812 Kb'
>>> assert format_bytes(1000000, "kb", SI=True) == '8,000 Kb'
>>> assert format_bytes(125000, "kb") == '977 Kb'
>>> assert format_bytes(125000, "kb", SI=True) == '1,000 Kb'
>>> assert format_bytes(125*1024, "kb") == '1,000 Kb'
>>> assert format_bytes(125*1024, "kb", SI=True) == '1,024 Kb'
person Peter F    schedule 07.10.2018
comment
Это довольно умный способ сделать это. Интересно, можете ли вы поместить их в функцию, в которой вы передаете, хотите ли вы kb. мб и так далее. У вас даже может быть команда ввода, которая спрашивает, какую из них вы хотите, что было бы очень удобно, если вы будете делать это часто. - person Hildy; 07.10.2018
comment
См. Выше, Хильди ... Вы также можете настроить строку словаря, например @ lennart-regebro, описанную выше ... что может быть полезно для управления хранилищем, например. Раздел, кластер, диски 4 ТБ, DVD_RW, диск Blu-Ray, карты памяти 1 ГБ или что-то еще. - person Peter F; 07.10.2018
comment
Я также только что добавил Kb (килобит), Mb (мегабит) и Gb (гигабит) - пользователи часто путаются с точки зрения скорости сети или передачи файлов, поэтому подумали, что это может быть удобно. - person Peter F; 07.10.2018

На всякий случай, если кто-то ищет обратную сторону этой проблемы (как я уверен), вот что работает для меня:

def get_bytes(size, suffix):
    size = int(float(size))
    suffix = suffix.lower()

    if suffix == 'kb' or suffix == 'kib':
        return size << 10
    elif suffix == 'mb' or suffix == 'mib':
        return size << 20
    elif suffix == 'gb' or suffix == 'gib':
        return size << 30

    return False
person Romeo Mihalcea    schedule 31.10.2016
comment
Вы не обрабатываете десятичные числа, такие как 1,5 ГБ. Чтобы исправить это, просто измените << 10 на * 1024, << 20 на * 1024**2 и << 30 на * 1024**3. - person E235; 13.03.2019

Вот:

def convert_bytes(size):
    for x in ['bytes', 'KB', 'MB', 'GB', 'TB']:
        if size < 1024.0:
            return "%3.1f %s" % (size, x)
        size /= 1024.0

    return size

Выход

>>> convert_bytes(1024)
'1.0 KB'
>>> convert_bytes(102400)
'100.0 KB'
person rhoitjadhav    schedule 04.12.2019
comment
Это МиБ, а не Мб и тд ... - person Bouncner; 26.04.2021

Вот мои два цента, которые позволяют забрасывать вверх и вниз и добавляют настраиваемую точность:

def convertFloatToDecimal(f=0.0, precision=2):
    '''
    Convert a float to string of decimal.
    precision: by default 2.
    If no arg provided, return "0.00".
    '''
    return ("%." + str(precision) + "f") % f

def formatFileSize(size, sizeIn, sizeOut, precision=0):
    '''
    Convert file size to a string representing its value in B, KB, MB and GB.
    The convention is based on sizeIn as original unit and sizeOut
    as final unit. 
    '''
    assert sizeIn.upper() in {"B", "KB", "MB", "GB"}, "sizeIn type error"
    assert sizeOut.upper() in {"B", "KB", "MB", "GB"}, "sizeOut type error"
    if sizeIn == "B":
        if sizeOut == "KB":
            return convertFloatToDecimal((size/1024.0), precision)
        elif sizeOut == "MB":
            return convertFloatToDecimal((size/1024.0**2), precision)
        elif sizeOut == "GB":
            return convertFloatToDecimal((size/1024.0**3), precision)
    elif sizeIn == "KB":
        if sizeOut == "B":
            return convertFloatToDecimal((size*1024.0), precision)
        elif sizeOut == "MB":
            return convertFloatToDecimal((size/1024.0), precision)
        elif sizeOut == "GB":
            return convertFloatToDecimal((size/1024.0**2), precision)
    elif sizeIn == "MB":
        if sizeOut == "B":
            return convertFloatToDecimal((size*1024.0**2), precision)
        elif sizeOut == "KB":
            return convertFloatToDecimal((size*1024.0), precision)
        elif sizeOut == "GB":
            return convertFloatToDecimal((size/1024.0), precision)
    elif sizeIn == "GB":
        if sizeOut == "B":
            return convertFloatToDecimal((size*1024.0**3), precision)
        elif sizeOut == "KB":
            return convertFloatToDecimal((size*1024.0**2), precision)
        elif sizeOut == "MB":
            return convertFloatToDecimal((size*1024.0), precision)

Добавьте TB и т. Д., Как хотите.

person WesternGun    schedule 06.11.2017
comment
Я проголосую за это, потому что это можно решить только со стандартной библиотекой python - person Ciasto piekarz; 07.08.2018

Вот версия, которая соответствует результату ls -lh.

def human_size(num: int) -> str:
    base = 1
    for unit in ['B', 'K', 'M', 'G', 'T', 'P', 'E', 'Z', 'Y']:
        n = num / base
        if n < 9.95 and unit != 'B':
            # Less than 10 then keep 1 decimal place
            value = "{:.1f}{}".format(n, unit)
            return value
        if round(n) < 1000:
            # Less than 4 digits so use this
            value = "{}{}".format(round(n), unit)
            return value
        base *= 1024
    value = "{}{}".format(round(n), unit)
    return value
person Keith    schedule 01.12.2018

Я хотел двухстороннее преобразование, и я хотел использовать поддержку Python 3 format (), чтобы сделать его максимально питоническим. Может быть, попробовать модуль библиотеки datasize? https://pypi.org/project/datasize/

$ pip install -qqq datasize
$ python
...
>>> from datasize import DataSize
>>> 'My new {:GB} SSD really only stores {:.2GiB} of data.'.format(DataSize('750GB'),DataSize(DataSize('750GB') * 0.8))
'My new 750GB SSD really only stores 558.79GiB of data.'
person Jeremy    schedule 30.11.2020

Вот моя реализация:

from bisect import bisect

def to_filesize(bytes_num, si=True):
    decade = 1000 if si else 1024
    partitions = tuple(decade ** n for n in range(1, 6))
    suffixes = tuple('BKMGTP')

    i = bisect(partitions, bytes_num)
    s = suffixes[i]

    for n in range(i):
        bytes_num /= decade

    f = '{:.3f}'.format(bytes_num)

    return '{}{}'.format(f.rstrip('0').rstrip('.'), s)

Он печатает до трех знаков после запятой и удаляет конечные нули и точки. Логический параметр si будет переключать использование величины размера на основе 10 и 2.

Это его аналог. Это позволяет записывать чистые файлы конфигурации, такие как {'maximum_filesize': from_filesize('10M'). Он возвращает целое число, приблизительно равное предполагаемому размеру файла. Я не использую битовый сдвиг, потому что исходное значение - это число с плавающей запятой (оно прекрасно принимает from_filesize('2.15M')). Преобразование его в целое / десятичное число будет работать, но усложняет код, и он уже работает как есть.

def from_filesize(spec, si=True):
    decade = 1000 if si else 1024
    suffixes = tuple('BKMGTP')

    num = float(spec[:-1])
    s = spec[-1]
    i = suffixes.index(s)

    for n in range(i):
        num *= decade

    return int(num)
person sleblanc    schedule 20.05.2019

person    schedule
comment
это можно использовать во многих настройках. рад, что наткнулся на этот комментарий. большое спасибо. - person Saurabh Jain; 13.05.2020
comment
да, это довольно мило и не требует внешних библиотек - person chowpay; 27.01.2021