Публикации по теме 'cuda'


Расширенная оптимизация Nvidia Tensor Core-CUDA HGEMM
Как максимально оптимизировать CUDA HGEMM с помощью Tensor Core? 1. История Умножение матриц GEMM (General Matrix Multiplication) — один из наиболее часто используемых и трудоемких алгоритмов в глубоком обучении, особенно в области CNN, RNN, преобразователей и других областях. В этих областях необходимо быстро вычислять и обрабатывать большое количество операций умножения матриц. Следовательно, эффективная реализация матричного умножения имеет решающее значение для производительности и..

Среда машинного обучения с Ubuntu и ускорением графического процессора за 5 шагов
В этом пошаговом руководстве рассматриваются настройки BIOS, установка ОС Ubuntu, программного обеспечения для ускорения графического процессора, Python, пакет машинного обучения и глубокого обучения, а также создание виртуальных сред. Если вы новичок в машинном обучении, работаете с ним ежедневно или даже создаете специализированные компьютеры для машинного обучения, хорошая рабочая система имеет важное значение. Однако настройка среды может занять много времени и нервов (из личного..

Серия DL Infra: Программирование CUDA — Часть 2
Часть 2 подсерии статей о программировании на CUDA — переменные иерархии потоков, циклы Grid-Strided Loops и NVIDIA Nsight Серия DL Infra призвана устранить разрыв между инженерными разработками и исследованиями в области глубокого обучения. Поскольку область глубокого обучения или ИИ в целом развивается довольно быстро, легко заблудиться в океане теории и забыть основы. Цель этой серии — донести до аудитории основные сведения об инфраструктуре в сжатой и понятной форме. Ускорение..

Настройка Tensorflow 2.4 в Windows с поддержкой CUDA/GPU.
Было бы справедливо сказать, что машинное обучение стало более доступным, чем когда-либо, с относительно скромным оборудованием и пропустив докторскую степень, теперь вы можете создавать и обучать свои собственные модели или использовать предварительно обученные модели. Однако я не могу сказать, что это всегда просто; это все еще очень развивающаяся область с быстро развивающимися разработками, инструментами, наборами инструментов и SDK. Настройка вашей среды требует времени и..

Я купил новый компьютер, чтобы опробовать CUDA, оно того стоило?
Меня всегда интересовали возможности обработки графики для статистических вычислений. В последнее время я использовал множество пакетов openCL, а не стандартные пакеты на базе ЦП, так как моя видеокарта производится AMD, и OpenCL - это, пожалуй, единственный адекватный вклад, который они внесли программистам, которые хотят использовать возможности GPU для математики, а не только для графики. Безусловно, первое место в моем списке интересных мне вещей занимает CUDA, проприетарная..

Программирование на GPU
Традиционные процессоры специализируются на последовательном выполнении инструкций общего назначения. Напротив, графические процессоры могут одновременно выполнять тысячи инструкций. Это различие возникает из-за их соответствующих архитектур. Графический процессор хорош для эффективного запуска большого количества потоков и параллельного выполнения большого количества потоков. Таким образом, он может выполнять ресурсоемкие задачи намного быстрее, чем ЦП. В программировании с..

Объяснение некоторых концепций CUDA
Готов поспорить, вы можете легко ускорить свою программу в 10 раз, приняв CUDA. Но это 10x - это далеко не конец истории. Полностью оптимизированный код CUDA может дать вам 100-кратное ускорение. Чтобы написать высокооптимизированные ядра CUDA, нужно хорошо понимать некоторые концепции графического процессора. Однако я обнаружил, что некоторые концепции плохо объясняются в Интернете и могут легко запутать людей. Эти концепции сбивают с толку, потому что Некоторые термины были..