Не знаю, как вы, а я в восторге от PyData Global 2021 на прошлой неделе! Я транслировал сеансы на проектор в своей гостиной и твитнул через фантастический контент!
Чтобы насладиться весельем еще немного, я составил список моих любимых занятий и самых важных выводов… для тех из вас, у кого нет машины времени, кто не может посещать несколько занятий одновременно 😉
666 строк ассемблерного кода Beas(t)ley
С характерным для него сочетанием гениальности и юмора основной доклад Дэвида Бизли превратился в захватывающее повествование об истории Python, ценностях и стратегиях, заложенных в его ДНК. Он поделился несколькими бесценными анекдотами о том, как случайно запрограммировал суперкомпьютер по прозвищу Зверь с помощью 666 строк кода на ассемблере, и о волшебных вещах, которые могут произойти, когда в ваш трейлер-офис попадает молния. Смотрите весь лейтмотив здесь.
Мои выводы:
- Питонисты просят прощения, а не разрешения.
- Питонисты, как правило, действуют на периферии… только для того, чтобы ворваться на сцену и затмить всех, когда публика меньше всего этого ожидает.
- Сообщество производителей инструментов всегда будет более мощным, чем любой отдельный инструмент.
Если вы, как и я, любитель истории PyData, я настоятельно рекомендую посмотреть видео об истории Dask Мэтью Роклина. Чтобы узнать больше о текущем и будущем состоянии всех вещей, связанных с высокопроизводительными и распределенными вычислениями, посетите этот блог, чтобы получить доступ к откровенному разговору между Мэттом и Питером Ваном из Anaconda о состоянии распределенных вычислений.
Незаконная пицца с ананасами
Превратить сложную техническую тему в увлекательную презентацию — непростая задача. Я думаю, что Франческо Тисиот проделал феноменальную работу со своим докладом "Познакомьтесь с Apache Kafka с помощью Jupyter Notebooks". Помимо четкого объяснения того, как работает Apache Kafka и как его применять, я также узнал несколько интересных фактов об этикете пиццы в Италии.
Мои выводы:
- Никогда (и я имею в виду никогда, даже в 3 часа ночи после вечеринки) не заказывайте Pizza Hawaii в Италии. Они незаконны. Вроде, как бы, что-то вроде…
- Использование Apache Kafka от Jupyter Notebooks кажется простым и привычным.
- Это действительно окупается, если вы потратите время на создание презентации, которая имеет четкую, понятную сюжетную линию (желательно приправленную юмором) и полезные, визуально привлекательные диаграммы, чтобы передать ваше сообщение запоминающимся способом. Я не забуду это!
Скучно - это новый кричащий
Со всей шумихой вокруг больших данных, искусственного интеллекта и машинного обучения иногда легко забыть, что некоторые из более «скучных» приземленных вещей, таких как форматы данных и алгоритмы сжатия, на самом деле так же важны для вашего успеха в науке о данных. . Хотя настройка гиперпараметров модели машинного обучения важна, затраты времени на оптимизацию качества и формата вводимых данных также могут привести к значительному повышению производительности.
Мои выводы:
- Вековая мантра «Мусор на входе, мусор на выходе» до сих пор звучит очень актуально.
- Преобразование ваших файлов CSV в Parquet может значительно увеличить производительность
- Новый компрессор blosc2 дает вам гораздо больше гибкости в том, как ваши данные сжимаются.
Все дело в визуальных эффектах
В этом году было много сессий по (интерактивной) визуализации. Мне особенно понравился высокоуровневый обзор Николаса Крухтена (Plotly) почему важна визуализация и 4 разных уровня интерактивности. Для абсолютно честного сравнения конкурирующих библиотек визуализации на месте на Python я рекомендую потратить час на просмотр Python Dashboarding Shootout and Showdown.
Сторона Даска сильна в этом!
И, конечно же, этот список не был бы полным без упоминания о сильном присутствии Dask на этом первом в истории PyData Global, как со стороны сопровождающих Dask, так и других докладчиков из делового и академического мира.
Некоторые основные моменты:
- Эйприл Рэт из Arrowstreet Capital представила впечатляющее описание пути своей компании с помощью Dask: от POC к производству. Нам понравилось, как она заставила всю свою команду перейти на использование Dask 🙂
- Ведущий инженер Coiled OSS Джеймс Бурбо представил новый коннектор dask-snowflake на конференции Snowflake & Dask: How to Scale Workloads using Distributed Fetch Capabilities.
- Доклад Брендана Коллинза Пространственная аналитика с использованием Dask и Numba посвящен новой библиотеке Xarray-Spatial для проведения растрового геопространственного анализа.
- Руководитель Coiled Account Гас Кавано провел вводный курс на тему Высокопроизводительные вычисления с помощью Numba, Dask и Rapids.
- Посетите семинар «Обработка данных в масштабе, организованный не менее чем 4 основными сопровождающими Dask, для подробного ознакомления с Dask и живых вопросов и ответов о будущем баз данных.
Каковы ваши главные достижения на PyData Global 2021?
Напишите мне в Твиттере, что вы думаете о PyData Global этого года — или дайте мне знать, если вы считаете, что в этом списке чего-то не хватает!
Первоначально опубликовано на https://coiled.io 1 ноября 2021 г.