Опитвам се да повиша производителността на част от код, написан на ARM Assembler, използвайки инструкции на Neon.
За тестване и изчисляване използвам този калкулатор: http://pulsar.webshaker.net/ccc/sample-706454b3
Забелязах, че на ред "n.34-0 1c n0" изведнъж модулът Neon изглежда трябва да изчака (?) 10 цикъла. Каква може да е причината за това или е просто грешка в калкулатора?
Също така ще ми трябва малко обща информация как да подобря производителността в ARM/Neon Assembler.
Целта е ARM Cortex-A9. За компилиране използвам най-новия android-ndk с вграден асемблер. Благодаря ти.