Я хотел бы понять, как вычислить производительность FMA. Если мы посмотрим на описание здесь:
для архитектуры Skylake инструкция имеет Latency=4
и Throughput(CPI)=0.5
, поэтому общая производительность инструкции составляет 4*0.5 = 2
тактов на инструкцию.
Насколько я понимаю, если максимальная (турбо) тактовая частота составляет 3 ГГц, то для одного ядра за одну секунду я могу выполнить 1 500 000 000 инструкций.
Это правильно? Если да, то в чем может быть причина того, что я наблюдаю несколько более высокую производительность?