Я пытаюсь увеличить производительность кода, написанного на ARM Assembler, используя инструкции Neon.
Для тестирования и расчета я использую этот калькулятор: http://pulsar.webshaker.net/ccc/sample-706454b3
Я заметил, что в строке «n.34-0 1c n0» блоку Neon внезапно приходится ждать (?) 10 циклов. С чем это может быть связано или это просто глюк калькулятора?
Также мне понадобится общая информация о том, как повысить производительность в ARM/Neon Assembler.
Целью является ARM Cortex-A9. Для компиляции я использую новейший android-ndk со встроенным ассемблером. Спасибо.