Sympy/mpmath/gmpy грешка при използване на многопроцесорна обработка

РЕДАКТИРАНЕ: Това е симпи бъг. Преместих дискусията на https://github.com/sympy/sympy/issues/7457

Имам програма на Python, която използва sympy за изпълнение на някои основни функции, които включват пресичане на линия и форма. Тази операция трябва да се изпълни няколко хиляди пъти и е доста бавна, когато се използват стандартните sympy чисти Python модули.

Опитах се да ускоря това, като инсталирах gmpy 2.0.3 (опитах и ​​с gmpy 1.5). Това наистина води до известно ускоряване на кода, но когато се използва multiprocessing за допълнително ускоряване, програмата се срива с TypeError.

Exception in thread Thread-3:
Traceback (most recent call last):
  File "C:\python27\lib\threading.py", line 810, in __bootstrap_inner
    self.run()
  File "C:\python27\lib\threading.py", line 763, in run
    self.__target(*self.__args, **self.__kwargs)
  File "C:\python27\lib\multiprocessing\pool.py", line 376, in _handle_results
    task = get()
  File "C:\python27\lib\site-packages\sympy\geometry\point.py", line 91, in __new__
    for f in coords.atoms(Float)]))
  File "C:\python27\lib\site-packages\sympy\simplify\simplify.py", line 3839, in nsimplify
    return _real_to_rational(expr, tolerance)
  File "C:\python27\lib\site-packages\sympy\simplify\simplify.py", line 3781, in _real_to_rational
    r = nsimplify(float, rational=False)
  File "C:\python27\lib\site-packages\sympy\simplify\simplify.py", line 3861, in nsimplify
    exprval = expr.evalf(prec, chop=True)
  File "C:\python27\lib\site-packages\sympy\core\evalf.py", line 1300, in evalf
    re = C.Float._new(re, p)
  File "C:\python27\lib\site-packages\sympy\core\numbers.py", line 673, in _new
    obj._mpf_ = mpf_norm(_mpf_, _prec)
  File "C:\python27\lib\site-packages\sympy\core\numbers.py", line 56, in mpf_norm
    rv = mpf_normalize(sign, man, expt, bc, prec, rnd)
TypeError: ('argument is not an mpz', <class 'sympy.geometry.point.Point'>, (-7.07106781186548, -7.07106781186548))

Програмата работи добре, когато се изпълнява в един процес, използвайки gmpy и когато се изпълнява без gmpy, използвайки multiprocessing.Pool.

Някой сблъсквал ли се е с подобен проблем преди? Програмата по-долу възпроизвежда този проблем:

import sympy
import multiprocessing
import numpy

def thread_function(func, data, output_progress=True, extra_kwargs=None, num_procs=None):
    if extra_kwargs:
        func = functools.partial(func, **extra_kwargs)

    if not num_procs:
        num_procs = multiprocessing.cpu_count()
    pool = multiprocessing.Pool(processes=num_procs)
    results = pool.map_async(func, data.T)
    pool.close()

    pool.join()
    return results.get()

def test_fn(data):
    x = data[0]
    y = data[1]
    circle = sympy.Circle((0,0), 10)
    line = sympy.Line(sympy.Point(0,0), sympy.Point(x,y))
    return line.intersection(circle)[0].evalf()

if __name__ == '__main__':
    data = numpy.vstack((numpy.arange(1, 100), numpy.arange(1, 100)))

    print thread_function(test_fn, data) #<--- this line causes the problem
#    print [test_fn(data[:,i]) for i in xrange(data.shape[1])] #<--- this one runs without errors

person Chinmay Kanchi    schedule 02.05.2014    source източник
comment
Мултипроцесорът не използва ли pickle? Може би gmpy обектите не могат да се мариноват.   -  person asmeurer    schedule 03.05.2014


Отговори (1)


Проверих, че gmpy обекти могат да се ецват и че mpmath.mpf обекти, които използват gmpy също могат да се ецват.

Грешката възниква, когато аргументът man на mpf_normalize() не е gmpy обект. Ако принудя man да бъде mpz, тогава вече не получавам грешка. Но отговорът е различен от версията с един процес.

Версия с един процес:

Точка (-223606797749979/50000000000000, -223606797749979/250000000000000)

Версия на множество процеси:

Точка (-7.07106781186548, -7.07106781186548)

И двата типа, използвани в Point(), са различни (рационално спрямо плаващо) и стойностите са различни (-223606797749979/50000000000000 е -4,47213595499958).

Все още проучвам и ще актуализирам този отговор, ако открия основната причина.

Актуализация №1: Различните стойности са причинени от грешка в примерния код. Функцията с нишка е получила различни стойности от тази на версията без нишка.

Все още проследявам защо многопроцесорната обработка задейства изключението. Редуцирах проблема до следния пример:

import sympy
import multiprocessing
import numpy

def thread_function(func, data, output_progress=True, extra_kwargs=None, num_procs=None):
    if extra_kwargs:
        func = functools.partial(func, **extra_kwargs)

    if not num_procs:
        num_procs = multiprocessing.cpu_count()
    pool = multiprocessing.Pool(processes=num_procs)
    results = pool.map_async(func, data)
    pool.close()

    pool.join()
    return results.get()

def test_fn(data):
    return sympy.Point(0,1).evalf()

if __name__ == '__main__':
    test_size = 10
    print [test_fn(None) for i in xrange(1, test_size)] #<--- this one runs without errors
    print thread_function(test_fn, [None] * (test_size - 1)) #<--- this line causes the problem
person casevh    schedule 04.05.2014
comment
Грешката в примерния код е, че данните се итерират по колони в примера за многопроцесорна обработка. Поправих това във въпроса. - person Chinmay Kanchi; 04.05.2014
comment
Имайте предвид, че тъй като това е sympy бъг, ще преместя дискусията там. Вижте github.com/sympy/sympy/issues/7457 - person Chinmay Kanchi; 04.05.2014