de/d00/intrinsics_8h_source.html

#include <algorithm>

#include <bit>

#include <cstdint>

#include <type_traits>


#ifdef __GNUC__

#ifdef __clang__

#define COMPILER_CLANG 1

#define COMPILER_GCC 0

#else

#define COMPILER_CLANG 0

#define COMPILER_GCC 1

#endif

#else

#ifdef __clang__

#define COMPILER_CLANG 1

#define COMPILER_GCC 0

#else

#define COMPILER_CLANG 0

#define COMPILER_GCC 0

#endif

#endif


#ifndef __ARM_ARCH

#define __ARM_ARCH 0

#endif


#ifndef __ARM_ARCH_7A__

#define __ARM_ARCH_7A__ 0

#endif


constexpr bool ARMv7a = (__ARM_ARCH == 7 && __ARM_ARCH_7A__);

constexpr bool kCompilerClang = COMPILER_CLANG;


// This multiplies two numbers in signed Q31 fixed point as if they were q32, so the return value is half what it should

// be. Use this when several corrective shifts can be accumulated and then combined

[[gnu::always_inline]] static constexpr int32_t multiply_32x32_rshift32(int32_t a, int32_t b) {

    if !consteval {

        if constexpr (ARMv7a && !kCompilerClang) {

            int32_t out;

            asm("smmul %0, %1, %2" : "=r"(out) : "r"(a), "r"(b));

            return out;

        }

    }


    return (int32_t)(((int64_t)a * b) >> 32);

}


// This multiplies two numbers in signed Q31 fixed point and rounds the result

[[gnu::always_inline]] static constexpr int32_t multiply_32x32_rshift32_rounded(int32_t a, int32_t b) {

    if !consteval {

        if constexpr (ARMv7a && !kCompilerClang) {

            int32_t out;

            asm("smmulr %0, %1, %2" : "=r"(out) : "r"(a), "r"(b));

            return out;

        }

    }


    return (int32_t)(((int64_t)a * b + 0x80000000) >> 32);

}


[[gnu::always_inline]] static constexpr int32_t q31_mult(int32_t a, int32_t b) {

    return multiply_32x32_rshift32(a, b) << 1;

}


[[gnu::always_inline]] static constexpr int32_t q31_mult_rounded(int32_t a, int32_t b) {

    return multiply_32x32_rshift32_rounded(a, b) << 1;

}


// Multiplies A and B, adds to sum, and returns output

[[gnu::always_inline]] static constexpr int32_t multiply_accumulate_32x32_rshift32_rounded(int32_t sum, int32_t a,

                                                                                           int32_t b) {

    if !consteval {

        if constexpr (ARMv7a && !kCompilerClang) {

            int32_t out;

            asm("smmlar %0, %1, %2, %3" : "=r"(out) : "r"(a), "r"(b), "r"(sum));

            return out;

        }

    }


    return (int32_t)(((((int64_t)sum) << 32) + ((int64_t)a * b) + 0x80000000) >> 32);

}


// Multiplies A and B, adds to sum, and returns output

[[gnu::always_inline]] static constexpr int32_t multiply_accumulate_32x32_rshift32(int32_t sum, int32_t a, int32_t b) {

    if !consteval {

        if constexpr (ARMv7a && !kCompilerClang) {

            int32_t out;

            asm("smmla %0, %1, %2, %3" : "=r"(out) : "r"(a), "r"(b), "r"(sum));

            return out;

        }

    }


    return (int32_t)(((((int64_t)sum) << 32) + ((int64_t)a * b)) >> 32);

}


// Multiplies A and B, subtracts from sum, and returns output

[[gnu::always_inline]] static constexpr int32_t multiply_subtract_32x32_rshift32_rounded(int32_t sum, int32_t a,

                                                                                         int32_t b) {

    if !consteval {

        if constexpr (ARMv7a && !kCompilerClang) {

            int32_t out;

            asm("smmlsr %0, %1, %2, %3" : "=r"(out) : "r"(a), "r"(b), "r"(sum));

            return out;

        }

    }


    return (int32_t)((((((int64_t)sum) << 32) - ((int64_t)a * b)) + 0x80000000) >> 32);

}


// computes limit((val >> rshift), 2**bits)

template <size_t bits>

requires(bits < 32)

[[gnu::always_inline]] static constexpr int32_t signed_saturate(int32_t val) {

    if !consteval {

        if constexpr (ARMv7a) {

            int32_t out;

            asm("ssat %0, %1, %2" : "=r"(out) : "I"(bits), "r"(val));

            return out;

        }

    }

    return std::clamp<int32_t>(val, -(1LL << (bits - 1)), (1LL << (bits - 1)) - 1);


}


template <size_t bits>

requires(bits <= 32)

[[gnu::always_inline]] static constexpr uint32_t unsigned_saturate(uint32_t val) {

    if !consteval {

        if constexpr (ARMv7a) {

            int32_t out;

            asm("usat %0, %1, %2" : "=r"(out) : "I"(bits), "r"(val));

            return out;

        }

    }


    return std::clamp<uint32_t>(val, 0u, (1uL << bits) - 1);

}


template <size_t shift, size_t bits = 32>

requires(shift < 32 && bits <= 32)

[[gnu::always_inline]] static constexpr int32_t shift_left_saturate(int32_t val) {

    if !consteval {

        if constexpr (ARMv7a) {

            int32_t out;

            asm("ssat %0, %1, %2, LSL %3" : "=r"(out) : "I"(bits), "r"(val), "I"(shift));

            return out;

        }

    }


    return std::clamp<int64_t>((int64_t)val << shift, -(1LL << (bits - 1)), (1LL << (bits - 1)) - 1);

}


template <size_t shift, size_t bits = 32>

requires(shift < 32 && bits <= 32)

[[gnu::always_inline]] static constexpr uint32_t shift_left_saturate(uint32_t val) {

    if !consteval {

        if constexpr (ARMv7a) {

            int32_t out;

            asm("usat %0, %1, %2, LSL %3" : "=r"(out) : "I"(bits), "r"(val), "I"(shift));

            return out;

        }

    }

    return std::clamp<uint64_t>((uint64_t)val << shift, 0u, (1uLL << bits) - 1);

}


[[gnu::always_inline]] static constexpr int32_t add_saturate(int32_t a, int32_t b) {

    if !consteval {

        if constexpr (ARMv7a) {

            int32_t out;

            asm("qadd %0, %1, %2" : "=r"(out) : "r"(a), "r"(b));

            return out;

        }

    }

    return std::clamp<int64_t>(a + b, -(1LL << 31), (1LL << 31) - 1);

}


[[gnu::always_inline]] static constexpr int32_t subtract_saturate(int32_t a, int32_t b) {

    if !consteval {

        if constexpr (ARMv7a) {

            int32_t out;

            asm("qsub %0, %1, %2" : "=r"(out) : "r"(a), "r"(b));

            return out;

        }

    }

    return std::clamp<int64_t>(a - b, -(1LL << 31), (1LL << 31) - 1);

}


static inline int32_t q31_from_float(float value) {

    asm("vcvt.s32.f32 %0, %0, #31" : "=t"(value) : "t"(value));

    return std::bit_cast<int32_t>(value);

}


static inline float int32_to_float(int32_t value) {

    asm("vcvt.f32.s32 %0, %0, #31" : "=t"(value) : "t"(value));

    return std::bit_cast<float>(value);

}