Свързани публикации 'dataframes'
Scala #8: Spark: DataFrames
Научете как да използвате Spark DataFrames
Наборът от данни е съвкупност от данни, които се разпространяват между множество компютри. Наборите от данни имат предимствата както на RDD (силно въвеждане и възможност за използване на мощни ламбда функции), така и на оптимизираната машина за изпълнение на Spark SQL. Наборите от данни могат да бъдат конструирани от JVM обекти и манипулирани чрез функционални трансформации. API за набор от данни е наличен в Scala и Java, но не и в Python...
Как да оптимизирам използването на паметта в pandas?
Следват ефективни начини
1. Избиране само на задължителни колони 2. Числови dtypes от по-нисък диапазон 3. Категорични показатели 4.Разредени колони 5.Четене на парчета
Техника 1: Избиране на необходимите колони само чрез usecols.
df = pd.read_csv("bigcsvfile.csv", usecols=["col1", "col2"])
Техника 2: Свийте цифровите колони с по-малки dtypes
int8 can store integers from -128 to 127.
int16 can store integers from -32768 to 32767.
int64 can..
Изследване на Polars — Светкавично бързата библиотека DataFrame в Python
Какво е Polars? Polars е алтернатива на Pandas. Как да анализирате данни с помощта на Polars DataFrame?
Polars е мощна библиотека DataFrame за манипулиране и анализ на данни в Python. Той предоставя интуитивен и ефективен начин за работа със структурирани данни, подобно на Pandas, но с допълнителни функции и оптимизации.
С Polars можете да извършвате различни операции върху таблични данни, като филтриране, агрегиране, обединяване, сортиране и трансформиране на данни...