Pandas 2.0, най-новата версия на популярната библиотека на Python за манипулиране на данни, току-що беше пусната. Ако не сте запознати с него, мислете за него като за много способна програмна електронна таблица.

Pandas се превърна в основна част от много системи за наука за данни и машинно обучение поради своята гъвкавост и здравина. С него можете да изпълнявате широк набор от задачи за манипулиране на данни, от изчисляване на статистически данни до свързване на таблици и тяхното завъртане.

Едно от основните подобрения в Pandas 2.0 е добавянето на поддръжка за типове данни PyArrow. Чрез съхраняване на данни в PyArrow вместо в NumPy, потребителите могат да очакват значителни печалби в производителността. Освен това новата версия включва подобрения, свързани с копиране при запис, управление на индекси и незадължителна инсталация на зависимости чрез pip екстри.

Актуализиране до Pandas 2.0

Ако искате да получите всички готини неща, които идват с Pandas 2.0 и вече сте настроили Pandas във вашата виртуална среда, просто надстройте до най-новата версия, без проблем. Можете да направите това лесно, като инсталирате Pandas 2.0 с pip.

pip install --upgrade --pre pandas==2.0.0rc0

# or you can use conda-forge

conda install -c conda-forge/label/pandas_rc pandas==2.0.0rc0

За да потвърдите, че използвате най-новата версия на pandas, използвайте кода по-долу.

import pandas as pd

print(pd.__version__)

Трябва да видите „pandas 2.0.0rc0“ отпечатано на вашия компютър.

Какво е новото в Pandas 2.0?

Pandas 2.0 предлага разнообразие от подобрения, които го правят забележително издание.

  • Възможност за инсталиране на незадължителни зависимости с pip екстри
  • Поддръжка на числови типове данни NumPy в индекс
  • Нова конфигурационна опция, mode.dtype_backend, която позволява връщането на типове данни, поддържани от pyarrow
  • Подобрения във функционалността за копиране при запис
  • Множество корекции на грешки и други подобрения са описани тук.

Заедно тези промени правят Pandas 2.0 значителна актуализация за всеки, който използва библиотеката за манипулиране на данни в Python.

Pandas 2.0 предлага PyArrow

Досега Pandas разчиташе на NumPy за съхраняване на таблични данни, включително низове, числа и по-сложни типове данни. NumPy обаче има определени ограничения, което затруднява обработката на липсващи стойности. За да се представят липсващи стойности, трябваше да се използват специални стойности като NaN, което усложни обработката на различни типове данни.

С Pandas 2.0 ще имате опцията да използвате PyArrow, за да обработвате вашите данни вместо това. PyArrow е по-подходящ за съхраняване на таблични данни и улеснява обработката на празни стойности. Това се постига чрез вътрешно съхраняване на втори масив заедно с масива от данни, който показва дали дадена стойност присъства или не, опростявайки процеса на обработка на празни стойности. Освен това PyArrow позволява лесно съхранение на низове, което го прави по-гъвкава опция за съхранение на данни в Pandas.

Pandas 2.0 ще бъде по-бърз

Очаква се Pandas 2.0 да предложи подобрена производителност, отчасти благодарение на въвеждането на PyArrow. В скорошен пример беше показано, че функцията endswith на поредица от низове с 2,5 милиона реда е 31,6 пъти по-бърза с помощта на PyArrow, отколкото с NumPy. Това подобрение на производителността е значително, както се вижда от числото в заглавието.

PyArrow е имплементиран не в Python, а в C++ за тази добра печалба в производителността. Знам, че има някои разработчици, които мислят по-малко за Python като прокси за по-бързи езици за програмиране.

Но това не е недостатък. На първо място, да можеш да пишеш на Python, докато печелиш от други езици, специализирани за производителност, е нещо, което прави Python специален

В заключение, докато някои може да придават голямо значение на техническите детайли, които стоят в основата на използването на PyArrow в Pandas 2.0, за много потребители най-важното е крайният резултат. По същия начин, по който седенето в Lamborghini е приятно, независимо от вътрешната му механика, предимствата на PyArrow могат да бъдат оценени просто като го използвате във вашия код. За да направите това, ще трябва да превключите към PyArrow във вашата кодова база и да се уверите, че имате инсталирана подходящата версия. Правейки това, можете да се възползвате от подобрената производителност и опростената обработка на данни, предлагани от PyArrow в Pandas 2.0.

Ако се интересувате да сте в крак с най-новите тенденции и напредък в технологиите, не забравяйте да ме следвате в LinkedIn 💼 , Twitter 🐦иMedium 📝! Споделям информативни статии, проницателни публикации и ценни прозрения за индустрията. Нека останем свързани и да продължим разговора за най-новите технически постижения и иновативни решения. Не забравяйте да извикате и да кажете здравей! 🤖🚀