Условия существования бродкаста и пространственной локальности в потоках вычислений

Лиходед, Н.А.

doi:10.29235/1561-2430-2022-58-3-292-299

Даты публикации Авторы Заглавия Темы

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот документ: https://elib.bsu.by/handle/123456789/344037

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Лиходед, Н.А.	-
dc.date.accessioned	2026-03-17T11:19:36Z	-
dc.date.available	2026-03-17T11:19:36Z	-
dc.date.issued	2022	-
dc.identifier.citation	Весці Нацыянальнай акадэміі навук Беларусі. Серыя фізіка-матэматычных навук. 2022; Т. 58(3): С. 292-299.	ru
dc.identifier.uri	https://elib.bsu.by/handle/123456789/344037	-
dc.description.abstract	В качестве компьютера, на котором требуется реализовать параллельную версию алгоритма, рассматриваются графические процессоры (GPU). Множество операций алгоритма для выполнения на GPU должно быть разбито на потоки вычислений; потоки должны быть сгруппированы в блоки вычислений, выполняющиеся атомарно на мультипроцессорах. Потоки одного блока выполняются на мультипроцессоре частями-пулами, называемыми варпами (warps); потоки варпа выполняются одновременно. Эффективность параллельного алгоритма зависит от способа размещения данных в памяти GPU. Если все потоки варпа запрашивают при выполнении текущего оператора один и тот же элемент массива, то его желательно размещать в разделяемой или константной памяти GPU; в этом случае его распределение по ядрам мультипроцессора реализуется фактически посредством бродкаста (broadcast). Если потоки варпа запрашивают близко расположенные в памяти данные, то в этом случае имеет место их пространственная локальность, что делает целесообразным размещение этих данных в текстурной памяти GPU. Реализация бродкаста или пространственной локальности за счет размещения данных в памяти соответствующего вида позволяет существенно снизить трафик при обмене ими между уровнями памяти графического процессора. В работе сформулированы и доказаны необходимые и достаточные условия, при которых возможно выполнение бродкаста или имеет место пространственная локальность данных. Условия даны в терминах функций, определяющих использование элементов массивов на вхождениях в операторы алгоритма, и функций, задающих информационные зависимости алгоритма. Полученные результаты могут быть использованы для оптимизации параллельных алгоритмов при их реализации на GPU.	ru
dc.language.iso	ru	ru
dc.publisher	Национальная академия наук Беларуси	ru
dc.rights	info:eu-repo/semantics/openAccess	ru
dc.subject	ЭБ БГУ::ЕСТЕСТВЕННЫЕ И ТОЧНЫЕ НАУКИ::Математика	ru
dc.subject	ЭБ БГУ::ТЕХНИЧЕСКИЕ И ПРИКЛАДНЫЕ НАУКИ. ОТРАСЛИ ЭКОНОМИКИ::Автоматика. Вычислительная техника	ru
dc.title	Условия существования бродкаста и пространственной локальности в потоках вычислений	ru
dc.title.alternative	Conditions for the existence of broadcast and spatial locality in computation threads	ru
dc.type	article	ru
dc.rights.license	CC BY 4.0	ru
dc.identifier.DOI	10.29235/1561-2430-2022-58-3-292-299	-
dc.description.alternative	Graphics Processing Units (GPUs) are considered as the target computer for implementing parallel algorithms. The set of algorithm operations to be implemented on the GPU must be split into computation threads; the threads should be grouped into computation blocks that are performed atomically on stream processors. Threads of a single block are executed on a stream processor in parts-pools called warp; warp threads are executed simultaneously. The efficiency of the parallel algorithm depends on the way the data is stored in the GPU memory. If all warp threads request the same datum when executing the current operator, then it is desirable to place it in a shared or constant GPU memory; in this case, its distribution across the cores of the multiprocessor is actually realized by means of broadcast. If warp threads request data located close to the memory, then in this case there is a spatial locality of data, which makes it advisable to place this data in the GPU's memory. The implementation of broadcast or spatial locality by placing data in a memory of the appropriate type allows one to significantly reduce traffic when exchanging data between the memory levels of the GPU. This paper formulates and proves the necessary and sufficient conditions under which it is possible to perform a broadcast or there is a spatial locality of data. The conditions are formulated in terms of functions that determine the use of array elements at occurrences in the algorithm operators and functions that define the information dependencies of the algorithm. The results of the work can be used to optimize parallel algorithms when they are implemented on the GPU.	ru
dc.identifier.orcid	0000-0002-0998-1349	ru
Располагается в коллекциях:	Статьи факультета прикладной математики и информатики

Полный текст документа:

Файл	Описание	Размер	Формат
665-1361-1-SM.pdf		608,49 kB	Adobe PDF	Открыть

Показать базовое описание документа Статистика Google Scholar

Все документы в Электронной библиотеке защищены авторским правом, все права сохранены.