Масштабирование времени для трансляции операции с 3D-массивами в numpy

Я пытаюсь транслировать простую операцию «>» над двумя трехмерными массивами. Один имеет размеры (m, 1, n), другой (1, m, n). Если я изменю значение третьего измерения (n), я наивно ожидаю, что скорость вычислений будет масштабироваться как n.

Однако, когда я пытаюсь измерить это явно, я обнаруживаю, что время вычислений увеличивается примерно в 10 раз при увеличении n с 1 до 2, после чего масштабирование становится линейным.

Почему время вычислений так сильно увеличивается при переходе от n=1 к n=2? Я предполагаю, что это артефакт управления памятью в numpy, но я ищу более подробную информацию.

Код прилагается ниже с полученным графиком.

import numpy as np
import time
import matplotlib.pyplot as plt

def compute_time(n):

    x, y = (np.random.uniform(size=(1, 1000, n)), 
            np.random.uniform(size=(1000, 1, n)))

    t = time.time()
    x > y 
    return time.time() - t

a = [
        [
            n, np.asarray([compute_time(n) 
            for _ in range(100)]).mean()
        ]
        for n in range(1, 30, 1)
    ]

a = np.asarray(a)
plt.plot(a[:, 0], a[:, 1])
plt.xlabel('n')
plt.ylabel('time(ms)')
plt.show()

Участок времени для трансляции операции

max 12.10.2018 источник

Ответы (2)

arrow_upward
6
arrow_downward

Я не могу это доказать, но я почти уверен, что это связано с одной простой оптимизацией, которая доступна только при n==1.

В настоящее время реализация numpy ufunc основана на сгенерированном компьютером коде для самого внутреннего цикла, который отображается на простой цикл C. Охватывающие циклы требуют использования полноценного объекта итератора, который в зависимости от полезной нагрузки, т. е. размера самого внутреннего цикла и стоимости атомарной операции, может быть значительным накладным расходом.

Теперь, при n == 1, проблема по существу является двумерной (numpy достаточно умен, чтобы обнаружить это), с самым внутренним циклом размером 1000, следовательно, 1000 шагов объекта итератора. Начиная с n == 2 и выше, самый внутренний цикл имеет размер n, и у нас есть 1 000 000 шагов объекта итератора, который объясняет скачок, который вы наблюдаете.

Как я уже сказал, я не могу это доказать, но могу сделать так, чтобы это выглядело правдоподобно: если мы переместим переменное измерение вперед, то самый внутренний цикл будет иметь постоянный размер 1000, а внешний цикл будет расти линейно за 1000 шагов итерации. И действительно, это заставляет прыжок исчезнуть.

Код:

import numpy as np
import time
import matplotlib.pyplot as plt

def compute_time(n, axis=2):
    xs, ys = [1, 10], [10, 1]
    xs.insert(axis, n)
    ys.insert(axis, n)
    x, y = (np.random.uniform(size=xs),
            np.random.uniform(size=ys))

    t = time.perf_counter()
    x > y
    return time.perf_counter() - t

a = [
        [
            n,
            np.asarray([compute_time(n) for _ in range(100)]).mean(),
            np.asarray([compute_time(n, 0) for _ in range(100)]).mean()
        ]
        for n in range(0, 10, 1)
     ]

a = np.asarray(a)
plt.plot(a[:, 0], a[:, 1:])
plt.xlabel('n')
plt.ylabel('time(ms)')
plt.show()

Связано: https://stackoverflow.com/a/48257213/7207392

Paul Panzer 12.10.2018

arrow_upward
5
arrow_downward

@ Теория Пола совершенно верна. В этом ответе я использую perf и отладчик, чтобы погрузиться, чтобы подтвердить эту теорию.

Во-первых, давайте посмотрим, на что тратится время выполнения (см. списки для run.py ниже для точного кода).

Для n=1 мы видим следующее:

Event count (approx.): 3388750000
Overhead  Command  Shared Object                               Symbol                                                               
  34,04%  python   umath.cpython-36m-x86_64-linux-gnu.so       [.] DOUBLE_less
  32,71%  python   multiarray.cpython-36m-x86_64-linux-gnu.so  [.] _aligned_strided_to_contig_size8_srcstride0
  28,16%  python   libc-2.23.so                                [.] __memmove_ssse3_back
   1,46%  python   multiarray.cpython-36m-x86_64-linux-gnu.so  [.] PyArray_TransferNDimToStrided

по сравнению с n=2:

Event count (approx.): 28954250000                                                              
Overhead  Command  Shared Object                               Symbol                                                               
  40,85%  python   libc-2.23.so                                [.] __memmove_ssse3_back
  40,16%  python   multiarray.cpython-36m-x86_64-linux-gnu.so  [.] PyArray_TransferNDimToStrided
   8,61%  python   umath.cpython-36m-x86_64-linux-gnu.so       [.] DOUBLE_less
   8,41%  python   multiarray.cpython-36m-x86_64-linux-gnu.so  [.] _contig_to_contig

При n=2 подсчитано в 8,5 раз больше событий, но только для удвоенного количества данных, поэтому нам нужно объяснить коэффициент замедления, равный 4.

Еще одно важное наблюдение: во времени работы преобладают операции с памятью для n=2 и (менее очевидно) также для n=1 (_aligned_strided_to_contig_size8_srcstride0 все дело в копировании данных), они перевешивают затраты для сравнения - DOUBLE_less.

Очевидно, PyArray_TransferNDimtoStrided вызывается для обоих размеров, так почему же такая большая разница в его доле времени работы?

Показанное собственное время PyArray_TransferNDimtoStrided — это не время, необходимое для копирования, а накладные расходы: указатели настроены так, чтобы в последнем измерении можно было скопировать за один раз через stransfer:

 PyArray_TransferNDimToStrided(npy_intp ndim,
 ....
 /* A loop for dimensions 0 and 1 */
 for (i = 0; i < shape1; ++i) {
    if (shape0 >= count) {
        stransfer(dst, dst_stride, src, src_stride0,
                    count, src_itemsize, data);
        return 0;
    }
    else {
        stransfer(dst, dst_stride, src, src_stride0,
                    shape0, src_itemsize, data);
    }
    count -= shape0;
    src += src_stride1;
    dst += shape0*dst_stride;
}
...

Эти stransfer-функции: /a> (см. сгенерированный код в листинге ниже) и _contig_to_contig:

_contig_to_contig используется в случае n=2 и передает 2-двойные значения (последнее измерение имеет 2 значения), накладные расходы на настройку указателей довольно высоки!
_aligned_strided_to_contig_size8_srcstride0 используется для n=1 и передает 1000 двойных значений за вызов (как указал @Paul, и как мы скоро увидим, numpy достаточно умен, чтобы отбрасывать размеры, длина которых составляет 1 элемент), накладными расходами на настройку указателей можно пренебречь.

Кстати, эти функции используются вместо простого цикла for, чтобы использовать векторизацию современных процессоров: с известным шагом во время компиляции компилятор может векторизовать код (что компиляторы часто не могут сделать для шагов, известных только в момент компиляции). runtime), таким образом, numpy анализирует шаблон доступа и отправляет его различным предварительно скомпилированным функциям.

Остался один вопрос: действительно ли numpy отбрасывает последнее измерение, если его размер равен 1, как показывают наши наблюдения?

Это легко проверить с помощью отладчика:

доступ к данным ufunc через итератор, который создается в iterator_loop через NpyIter_AdvancedNew
в NpyIter_AdvancedNew размеры анализируются (и переинтерпретируются), когда npyiter_coalesce_axes< /а>

Что касается коэффициента скорости 4, который "теряется" при сравнении n=2 с n=1: он не имеет особого значения и представляет собой просто случайное значение на моей машине: изменение размера матрицы с 10^3 на 10^4 сместит преимущество еще больше (меньше накладных расходов) еще больше к n=1-случай, что приводит на моей машине к коэффициенту потери скорости 12.

запустить.py

import sys
import numpy as np

n=int(sys.argv[1])

x, y = (np.random.uniform(size=(1, 1000, n)), 
        np.random.uniform(size=(1000, 1, n)))

for _ in range(10000):
    y<x

а потом:

perf record python run.py 1
perf report
....
perf record python run.py 2
perf report

Сгенерированный источник _aligned_strided_to_contig_size8_srcstride0:

/*
 * specialized copy and swap for source stride 0,
 * interestingly unrolling here is like above is only marginally profitable for
 * small types and detrimental for >= 8byte moves on x86
 * but it profits from vectorization enabled with -O3
 */
#if (0 == 0) && 1
static NPY_GCC_OPT_3 void
_aligned_strided_to_contig_size8_srcstride0(char *dst,
                        npy_intp dst_stride,
                        char *src, npy_intp NPY_UNUSED(src_stride),
                        npy_intp N, npy_intp NPY_UNUSED(src_itemsize),
                        NpyAuxData *NPY_UNUSED(data))
{
#if 8 != 16
#  if !(8 == 1 && 1)
    npy_uint64 temp;
#  endif
#else
    npy_uint64 temp0, temp1;
#endif
    if (N == 0) {
        return;
    }
#if 1 && 8 != 16
    /* sanity check */
    assert(npy_is_aligned(dst, _ALIGN(npy_uint64)));
    assert(npy_is_aligned(src, _ALIGN(npy_uint64)));
#endif
#if 8 == 1 && 1
    memset(dst, *src, N);
#else

#  if 8 != 16
    temp = _NPY_NOP8(*((npy_uint64 *)src));
#  else
#    if 0 == 0
        temp0 = (*((npy_uint64 *)src));
        temp1 = (*((npy_uint64 *)src + 1));
#    elif 0 == 1
        temp0 = _NPY_SWAP8(*((npy_uint64 *)src + 1));
        temp1 = _NPY_SWAP8(*((npy_uint64 *)src));
#    elif 0 == 2
        temp0 = _NPY_SWAP8(*((npy_uint64 *)src));
        temp1 = _NPY_SWAP8(*((npy_uint64 *)src + 1));
#    endif
#  endif

    while (N > 0) {
#  if 8 != 16
        *((npy_uint64 *)dst) = temp;
#  else
        *((npy_uint64 *)dst) = temp0;
        *((npy_uint64 *)dst + 1) = temp1;
#  endif
#  if 1
        dst += 8;
#  else
        dst += dst_stride;
#  endif
        --N;
    }
#endif/* @elsize == 1 && 1 -- else */
}
#endif/* (0 == 0) && 1 */

ead 03.11.2018

comment

Отличный ответ; очень поучительно, именно то, на что я надеялся. Я не понимаю, что люди не голосуют за это. Я оставлю это еще на один день и назначу награду завтра. - Paul Panzer; 06.11.2018

Масштабирование времени для трансляции операции с 3D-массивами в numpy

Ответы (2)

Похожие вопросы