/* keccak-armv7-neon.S  -  ARMv7/NEON implementation of Keccak
 *
 * Copyright (C) 2015 Jussi Kivilinna <jussi.kivilinna@iki.fi>
 *
 * This file is part of Libgcrypt.
 *
 * Libgcrypt is free software; you can redistribute it and/or modify
 * it under the terms of the GNU Lesser General Public License as
 * published by the Free Software Foundation; either version 2.1 of
 * the License, or (at your option) any later version.
 *
 * Libgcrypt is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with this program; if not, see <http://www.gnu.org/licenses/>.
 */

#include <config.h>

#if defined(HAVE_ARM_ARCH_V6) && defined(__ARMEL__) && \
    defined(HAVE_COMPATIBLE_GCC_ARM_PLATFORM_AS) && \
    defined(HAVE_GCC_INLINE_ASM_NEON)

/* Based on public-domain/CC0 implementation from SUPERCOP package
 * (keccakc1024/inplace-armv7a-neon/keccak2.s)
 *
 * Original copyright header follows:
 */

@ The Keccak sponge function, designed by Guido Bertoni, Joan Daemen,
@ Michaël Peeters and Gilles Van Assche. For more information, feedback or
@ questions, please refer to our website: http://keccak.noekeon.org/
@
@ Implementation by Ronny Van Keer, hereby denoted as "the implementer".
@
@ To the extent possible under law, the implementer has waived all copyright
@ and related or neighboring rights to the source code in this file.
@ http://creativecommons.org/publicdomain/zero/1.0/

.text

.syntax unified
.fpu neon
.arm


.extern _gcry_keccak_round_consts_64bit;

#ifdef __PIC__
#  define GET_DATA_POINTER(reg, name, rtmp) \
		ldr reg, 1f; \
		ldr rtmp, 2f; \
		b 3f; \
	1:	.word _GLOBAL_OFFSET_TABLE_-(3f+8); \
	2:	.word name(GOT); \
	3:	add reg, pc, reg; \
		ldr reg, [reg, rtmp];
#else
#  define GET_DATA_POINTER(reg, name, rtmp) ldr reg, =name
#endif


@//  --- offsets in state
.equ Aba, 0*8
.equ Aga, 1*8
.equ Aka, 2*8
.equ Ama, 3*8
.equ Asa, 4*8

@// --- macros

.macro    KeccakThetaRhoPiChiIota argA1, argA2, argA3, argA4, argA5

    @Prepare Theta
    @Ca = Aba^Aga^Aka^Ama^Asa@
    @Ce = Abe^Age^Ake^Ame^Ase@
    @Ci = Abi^Agi^Aki^Ami^Asi@
    @Co = Abo^Ago^Ako^Amo^Aso@
    @Cu = Abu^Agu^Aku^Amu^Asu@
    @De = Ca^ROL64(Ci, 1)@
    @Di = Ce^ROL64(Co, 1)@
    @Do = Ci^ROL64(Cu, 1)@
    @Du = Co^ROL64(Ca, 1)@
    @Da = Cu^ROL64(Ce, 1)@

    veor.64 q4, q6, q7
    veor.64 q5, q9, q10
    veor.64 d8,  d8,   d9
    veor.64 d10,  d10,   d11
    veor.64 d1,  d8,   d16
    veor.64 d2,  d10,   d17

    veor.64 q4, q11, q12
    veor.64 q5, q14, q15
    veor.64 d8,  d8,   d9
    veor.64 d10,  d10,   d11
    veor.64 d3,  d8,   d26

    vadd.u64 q4, q1, q1
    veor.64 d4,  d10,   d27
    vmov.64  d0, d5
    vsri.64 q4, q1, #63

    vadd.u64 q5, q2, q2
    veor.64 q4, q4, q0
    vsri.64 q5, q2, #63
    vadd.u64 d7, d1, d1
    veor.64 \argA2, \argA2, d8
    veor.64 q5, q5, q1

    vsri.64 d7, d1, #63
    vshl.u64 d1, \argA2, #44
    veor.64 \argA3, \argA3, d9
    veor.64 d7, d7, d4

    @Ba = argA1^Da@
    @Be = ROL64((argA2^De), 44)@
    @Bi = ROL64((argA3^Di), 43)@
    @Bo = ROL64((argA4^Do), 21)@
    @Bu = ROL64((argA5^Du), 14)@
    @argA2 =   Be ^((~Bi)& Bo )@
    @argA3 =   Bi ^((~Bo)& Bu )@
    @argA4 =   Bo ^((~Bu)& Ba )@
    @argA5 =   Bu ^((~Ba)& Be )@
    @argA1 =   Ba ^((~Be)& Bi )@ argA1 ^= KeccakF1600RoundConstants[i+round]@
    vsri.64 d1, \argA2, #64-44
    vshl.u64 d2, \argA3, #43
    vldr.64 d0, [sp, #\argA1]
    veor.64 \argA4, \argA4, d10
    vsri.64 d2, \argA3, #64-43
    vshl.u64 d3, \argA4, #21
    veor.64 \argA5, \argA5, d11
    veor.64 d0, d0, d7
    vsri.64 d3, \argA4, #64-21
    vbic.64   d5, d2, d1
    vshl.u64 d4, \argA5, #14
    vbic.64   \argA2, d3, d2
    vld1.64   d6, [ip]!
    veor.64   d5, d0
    vsri.64 d4, \argA5, #64-14
    veor.64   d5, d6
    vbic.64   \argA5, d1, d0
    vbic.64   \argA3, d4, d3
    vbic.64   \argA4, d0, d4
    veor.64   \argA2, d1
    vstr.64   d5, [sp, #\argA1]
    veor.64   \argA3, d2
    veor.64   \argA4, d3
    veor.64   \argA5, d4

    .endm

.macro    KeccakThetaRhoPiChi1   argA1, argA2, argA3, argA4, argA5

    @d2 = ROL64((argA1^Da), 3)@
    @d3 = ROL64((argA2^De), 45)@
    @d4 = ROL64((argA3^Di), 61)@
    @d0 = ROL64((argA4^Do), 28)@
    @d1 = ROL64((argA5^Du), 20)@
    @argA1 =   Ba ^((~Be)&  Bi )@ Ca ^= argA1@
    @argA2 =   Be ^((~Bi)&  Bo )@
    @argA3 =   Bi ^((~Bo)&  Bu )@
    @argA4 =   Bo ^((~Bu)&  Ba )@
    @argA5 =   Bu ^((~Ba)&  Be )@

    veor.64 \argA2, \argA2, d8
    veor.64 \argA3, \argA3, d9
    vshl.u64  d3, \argA2, #45
    vldr.64 d6, [sp, #\argA1]
    vshl.u64  d4, \argA3, #61
    veor.64 \argA4, \argA4, d10
    vsri.64  d3, \argA2, #64-45
    veor.64 \argA5, \argA5, d11
    vsri.64  d4, \argA3, #64-61
    vshl.u64  d0, \argA4, #28
    veor.64 d6, d6, d7
    vshl.u64  d1, \argA5, #20
    vbic.64   \argA3, d4, d3
    vsri.64  d0, \argA4, #64-28
    vbic.64   \argA4, d0, d4
    vshl.u64  d2, d6, #3
    vsri.64  d1, \argA5, #64-20
    veor.64   \argA4, d3
    vsri.64  d2, d6, #64-3
    vbic.64   \argA5, d1, d0
    vbic.64   d6, d2, d1
    vbic.64   \argA2, d3, d2
    veor.64   d6, d0
    veor.64   \argA2, d1
    vstr.64   d6, [sp, #\argA1]
    veor.64   \argA3, d2
    veor.64  d5, d6
    veor.64   \argA5, d4

    .endm

.macro    KeccakThetaRhoPiChi2 argA1, argA2, argA3, argA4, argA5

    @d4 = ROL64((argA1^Da), 18)@
    @d0 = ROL64((argA2^De), 1)@
    @d1 = ROL64((argA3^Di), 6)@
    @d2 = ROL64((argA4^Do), 25)@
    @d3 = ROL64((argA5^Du), 8)@
    @argA1 =   Ba ^((~Be)&  Bi )@ Ca ^= argA1@
    @argA2 =   Be ^((~Bi)&  Bo )@
    @argA3 =   Bi ^((~Bo)&  Bu )@
    @argA4 =   Bo ^((~Bu)&  Ba )@
    @argA5 =   Bu ^((~Ba)&  Be )@

    veor.64 \argA3, \argA3, d9
    veor.64 \argA4, \argA4, d10
    vshl.u64  d1, \argA3, #6
    vldr.64 d6, [sp, #\argA1]
    vshl.u64  d2, \argA4, #25
    veor.64 \argA5, \argA5, d11
    vsri.64  d1, \argA3, #64-6
    veor.64 \argA2, \argA2, d8
    vsri.64  d2, \argA4, #64-25
    vext.8  d3, \argA5, \argA5, #7
    veor.64 d6, d6, d7
    vbic.64  \argA3, d2, d1
    vadd.u64  d0, \argA2, \argA2
    vbic.64   \argA4, d3, d2
    vsri.64  d0, \argA2, #64-1
    vshl.u64  d4, d6, #18
    veor.64  \argA2, d1, \argA4
    veor.64  \argA3, d0
    vsri.64  d4, d6, #64-18
    vstr.64   \argA3, [sp, #\argA1]
    veor.64  d5, \argA3
    vbic.64   \argA5, d1, d0
    vbic.64   \argA3, d4, d3
    vbic.64   \argA4, d0, d4
    veor.64   \argA3, d2
    veor.64   \argA4, d3
    veor.64   \argA5, d4

    .endm

.macro    KeccakThetaRhoPiChi3 argA1, argA2, argA3, argA4, argA5

    @d1 = ROL64((argA1^Da), 36)@
    @d2 = ROL64((argA2^De), 10)@
    @d3 = ROL64((argA3^Di), 15)@
    @d4 = ROL64((argA4^Do), 56)@
    @d0 = ROL64((argA5^Du), 27)@
    @argA1 =   Ba ^((~Be)&  Bi )@ Ca ^= argA1@
    @argA2 =   Be ^((~Bi)&  Bo )@
    @argA3 =   Bi ^((~Bo)&  Bu )@
    @argA4 =   Bo ^((~Bu)&  Ba )@
    @argA5 =   Bu ^((~Ba)&  Be )@

    veor.64 \argA2, \argA2, d8
    veor.64 \argA3, \argA3, d9
    vshl.u64  d2, \argA2, #10
    vldr.64 d6, [sp, #\argA1]
    vshl.u64  d3, \argA3, #15
    veor.64 \argA4, \argA4, d10
    vsri.64  d2, \argA2, #64-10
    vsri.64  d3, \argA3, #64-15
    veor.64 \argA5, \argA5, d11
    vext.8  d4, \argA4, \argA4, #1
    vbic.64   \argA2, d3, d2
    vshl.u64  d0, \argA5, #27
    veor.64 d6, d6, d7
    vbic.64   \argA3, d4, d3
    vsri.64  d0, \argA5, #64-27
    vshl.u64  d1, d6, #36
    veor.64   \argA3, d2
    vbic.64   \argA4, d0, d4
    vsri.64  d1, d6, #64-36

    veor.64   \argA4, d3
    vbic.64   d6, d2, d1
    vbic.64   \argA5, d1, d0
    veor.64   d6, d0
    veor.64   \argA2, d1
    vstr.64   d6, [sp, #\argA1]
    veor.64  d5, d6
    veor.64   \argA5, d4

    .endm

.macro    KeccakThetaRhoPiChi4 argA1, argA2, argA3, argA4, argA5

    @d3 = ROL64((argA1^Da), 41)@
    @d4 = ROL64((argA2^De), 2)@
    @d0 = ROL64((argA3^Di), 62)@
    @d1 = ROL64((argA4^Do), 55)@
    @d2 = ROL64((argA5^Du), 39)@
    @argA1 =   Ba ^((~Be)&  Bi )@ Ca ^= argA1@
    @argA2 =   Be ^((~Bi)&  Bo )@
    @argA3 =   Bi ^((~Bo)&  Bu )@
    @argA4 =   Bo ^((~Bu)&  Ba )@
    @argA5 =   Bu ^((~Ba)&  Be )@

    veor.64 \argA2, \argA2, d8
    veor.64 \argA3, \argA3, d9
    vshl.u64  d4, \argA2, #2
    veor.64 \argA5, \argA5, d11
    vshl.u64  d0, \argA3, #62
    vldr.64 d6, [sp, #\argA1]
    vsri.64  d4, \argA2, #64-2
    veor.64 \argA4, \argA4, d10
    vsri.64  d0, \argA3, #64-62

    vshl.u64  d1, \argA4, #55
    veor.64 d6, d6, d7
    vshl.u64  d2, \argA5, #39
    vsri.64  d1, \argA4, #64-55
    vbic.64  \argA4, d0, d4
    vsri.64  d2, \argA5, #64-39
    vbic.64  \argA2, d1, d0
    vshl.u64  d3, d6, #41
    veor.64  \argA5, d4, \argA2
    vbic.64  \argA2, d2, d1
    vsri.64  d3, d6, #64-41
    veor.64  d6, d0, \argA2

    vbic.64 \argA2, d3, d2
    vbic.64 \argA3, d4, d3
    veor.64 \argA2, d1
    vstr.64 d6, [sp, #\argA1]
    veor.64 d5, d6
    veor.64 \argA3, d2
    veor.64 \argA4, d3

    .endm


@// --- code

@not callable from C!
.p2align 3
.type  KeccakF_armv7a_neon_asm,%function;
KeccakF_armv7a_neon_asm:  @

.LroundLoop:

    KeccakThetaRhoPiChiIota  Aba, d13, d19, d25, d31
    KeccakThetaRhoPiChi1    Aka, d15, d21, d22, d28
    KeccakThetaRhoPiChi2    Asa, d12, d18, d24, d30
    KeccakThetaRhoPiChi3    Aga, d14, d20, d26, d27
    KeccakThetaRhoPiChi4    Ama, d16, d17, d23, d29

    KeccakThetaRhoPiChiIota  Aba, d15, d18, d26, d29
    KeccakThetaRhoPiChi1    Asa, d14, d17, d25, d28
    KeccakThetaRhoPiChi2    Ama, d13, d21, d24, d27
    KeccakThetaRhoPiChi3    Aka, d12, d20, d23, d31
    KeccakThetaRhoPiChi4    Aga, d16, d19, d22, d30

    KeccakThetaRhoPiChiIota Aba, d14, d21, d23, d30
    KeccakThetaRhoPiChi1    Ama, d12, d19, d26, d28
    KeccakThetaRhoPiChi2    Aga, d15, d17, d24, d31
    KeccakThetaRhoPiChi3    Asa, d13, d20, d22, d29
    KeccakThetaRhoPiChi4    Aka, d16, d18, d25, d27

    KeccakThetaRhoPiChiIota Aba, d12, d17, d22, d27
    KeccakThetaRhoPiChi1    Aga, d13, d18, d23, d28
    KeccakThetaRhoPiChi2    Aka, d14, d19, d24, d29
    ldr    r0, [ip]
    KeccakThetaRhoPiChi3    Ama, d15, d20, d25, d30
    cmp    r0, #0xFFFFFFFF
    KeccakThetaRhoPiChi4    Asa, d16, d21, d26, d31

    bne    .LroundLoop
    sub    ip, #(8*24)
    bx    lr
.p2align 2
.ltorg
.size KeccakF_armv7a_neon_asm,.-KeccakF_armv7a_neon_asm;


@//unsigned _gcry_keccak_permute_armv7_neon(u64 *state)  callable from C
.p2align 3
.global   _gcry_keccak_permute_armv7_neon
.type  _gcry_keccak_permute_armv7_neon,%function;
_gcry_keccak_permute_armv7_neon:

    push   {ip, lr}
    vpush  {q4-q7}
    sub    sp,sp, #5*8

    vldr.64  d0,  [r0, #0*8]
    vldr.64  d12, [r0, #1*8]
    vldr.64  d17, [r0, #2*8]
    vldr.64  d22, [r0, #3*8]
    vldr.64  d27, [r0, #4*8]

    GET_DATA_POINTER(ip, _gcry_keccak_round_consts_64bit, lr);

    vldr.64  d1,  [r0, #5*8]
    vldr.64  d13, [r0, #6*8]
    vldr.64  d18, [r0, #7*8]
    vldr.64  d23, [r0, #8*8]
    vldr.64  d28, [r0, #9*8]

    vldr.64  d2,  [r0, #10*8]
    vldr.64  d14, [r0, #11*8]
    vldr.64  d19, [r0, #12*8]
    vldr.64  d24, [r0, #13*8]
    vldr.64  d29, [r0, #14*8]

    vldr.64  d3,  [r0, #15*8]
    vldr.64  d15, [r0, #16*8]
    vldr.64  d20, [r0, #17*8]
    vldr.64  d25, [r0, #18*8]
    vldr.64  d30, [r0, #19*8]

    vldr.64  d4,  [r0, #20*8]
    vldr.64  d16, [r0, #21*8]
    vldr.64  d21, [r0, #22*8]
    vldr.64  d26, [r0, #23*8]
    vldr.64  d31, [r0, #24*8]

    vstr.64  d0, [sp, #Aba]
    vstr.64  d1, [sp, #Aga]
    veor.64 q0, q0, q1
    vstr.64  d2, [sp, #Aka]
    veor.64 d5, d0,  d1
    vstr.64  d3, [sp, #Ama]
    mov      r1, r0
    vstr.64  d4, [sp, #Asa]
    veor.64 d5, d5,  d4

    bl KeccakF_armv7a_neon_asm

    vpop.64  { d0- d4 }

    vstr.64  d0,  [r1, #0*8]
    vstr.64  d12, [r1, #1*8]
    vstr.64  d17, [r1, #2*8]
    vstr.64  d22, [r1, #3*8]
    vstr.64  d27, [r1, #4*8]

    vstr.64  d1,  [r1, #5*8]
    vstr.64  d13, [r1, #6*8]
    vstr.64  d18, [r1, #7*8]
    vstr.64  d23, [r1, #8*8]
    vstr.64  d28, [r1, #9*8]

    vstr.64  d2,  [r1, #10*8]
    vstr.64  d14, [r1, #11*8]
    vstr.64  d19, [r1, #12*8]
    vstr.64  d24, [r1, #13*8]
    vstr.64  d29, [r1, #14*8]

    vstr.64  d3,  [r1, #15*8]
    vstr.64  d15, [r1, #16*8]
    vstr.64  d20, [r1, #17*8]
    vstr.64  d25, [r1, #18*8]
    vstr.64  d30, [r1, #19*8]

    vstr.64  d4,  [r1, #20*8]
    vstr.64  d16, [r1, #21*8]
    vstr.64  d21, [r1, #22*8]
    vstr.64  d26, [r1, #23*8]
    vstr.64  d31, [r1, #24*8]

    mov   r0, #112
    vpop  {q4-q7}
    pop   {ip, pc}
.p2align 2
.ltorg
.size _gcry_keccak_permute_armv7_neon,.-_gcry_keccak_permute_armv7_neon;

@//unsigned _gcry_keccak_permute_armv7_neon(u64 *state, @r4
@					    int pos,    @r1
@					    const byte *lanes,   @r2
@					    unsigned int nlanes, @r3
@					    int blocklanes) @ r5 callable from C
.p2align 3
.global   _gcry_keccak_absorb_lanes64_armv7_neon
.type  _gcry_keccak_absorb_lanes64_armv7_neon,%function;
_gcry_keccak_absorb_lanes64_armv7_neon:

    cmp    r3, #0	@ nlanes == 0
    itt eq
    moveq  r0, #0
    bxeq   lr

    push   {r4-r5, ip, lr}
    beq    .Lout
    mov    r4, r0
    ldr    r5, [sp, #(4*4)]
    vpush  {q4-q7}

    @ load state
    vldr.64  d0,  [r4, #0*8]
    vldr.64  d12, [r4, #1*8]
    vldr.64  d17, [r4, #2*8]
    vldr.64  d22, [r4, #3*8]
    vldr.64  d27, [r4, #4*8]

    GET_DATA_POINTER(ip, _gcry_keccak_round_consts_64bit, lr);

    vldr.64  d1,  [r4, #5*8]
    vldr.64  d13, [r4, #6*8]
    vldr.64  d18, [r4, #7*8]
    vldr.64  d23, [r4, #8*8]
    vldr.64  d28, [r4, #9*8]

    vldr.64  d2,  [r4, #10*8]
    vldr.64  d14, [r4, #11*8]
    vldr.64  d19, [r4, #12*8]
    vldr.64  d24, [r4, #13*8]
    vldr.64  d29, [r4, #14*8]

    vldr.64  d3,  [r4, #15*8]
    vldr.64  d15, [r4, #16*8]
    vldr.64  d20, [r4, #17*8]
    vldr.64  d25, [r4, #18*8]
    vldr.64  d30, [r4, #19*8]

    vldr.64  d4,  [r4, #20*8]
    vldr.64  d16, [r4, #21*8]
    vldr.64  d21, [r4, #22*8]
    vldr.64  d26, [r4, #23*8]
    vldr.64  d31, [r4, #24*8]

.Lmain_loop:

    @ detect absorb mode (full blocks vs lanes)

    cmp r1, #0		@ pos != 0
    bne .Llanes_loop

.Lmain_loop_pos0:

    @ full blocks mode

    @ switch (blocksize)
    cmp r5, #21
    beq .Lfull_block_21
    cmp r5, #18
    beq .Lfull_block_18
    cmp r5, #17
    beq .Lfull_block_17
    cmp r5, #13
    beq .Lfull_block_13
    cmp r5, #9
    beq .Lfull_block_9

    @ unknown blocksize
    b .Llanes_loop

.Lfull_block_21:

    @ SHAKE128

    cmp r3, #21		@ nlanes < blocklanes
    blo .Llanes_loop

    sub    sp,sp, #5*8

    vld1.64 {d5-d8}, [r2]!
    veor d0,  d5
    vld1.64 {d9-d11}, [r2]!
    veor d12, d6
    veor d17, d7
    veor d22, d8
    vld1.64 {d5-d8}, [r2]!
    veor d27, d9

    veor d1,  d10
    veor d13, d11
    vld1.64 {d9-d11}, [r2]!
    veor d18, d5
    veor d23, d6
    veor d28, d7

    veor d2,  d8
    vld1.64 {d5-d8}, [r2]!
    veor d14, d9
    veor d19, d10
    veor d24, d11
    vld1.64 {d9-d11}, [r2]!
    veor d29, d5

    veor d3,  d6
    veor d15, d7
    veor d20, d8
    veor d25, d9
    veor d30, d10

    veor d4,  d11

    vstr.64  d0, [sp, #Aba]
    vstr.64  d1, [sp, #Aga]
    veor.64 q0, q0, q1
    vstr.64  d2, [sp, #Aka]
    veor.64 d5, d0,  d1
    vstr.64  d3, [sp, #Ama]
    vstr.64  d4, [sp, #Asa]
    veor.64 d5, d5,  d4

    bl KeccakF_armv7a_neon_asm

    subs r3, #21	@ nlanes -= 21
    vpop.64  { d0-d4 }

    beq .Ldone

    b .Lfull_block_21

.Lfull_block_18:

    @ SHA3-224

    cmp r3, #18		@ nlanes < blocklanes
    blo .Llanes_loop

    sub    sp,sp, #5*8

    vld1.64 {d5-d8}, [r2]!
    veor d0,  d5
    vld1.64 {d9-d11}, [r2]!
    veor d12, d6
    veor d17, d7
    veor d22, d8
    vld1.64 {d5-d8}, [r2]!
    veor d27, d9

    veor d1,  d10
    veor d13, d11
    vld1.64 {d9-d11}, [r2]!
    veor d18, d5
    veor d23, d6
    veor d28, d7

    veor d2,  d8
    vld1.64 {d5-d8}, [r2]!
    veor d14, d9
    veor d19, d10
    veor d24, d11
    veor d29, d5

    veor d3,  d6
    veor d15, d7
    veor d20, d8

    vstr.64  d0, [sp, #Aba]
    vstr.64  d1, [sp, #Aga]
    veor.64 q0, q0, q1
    vstr.64  d2, [sp, #Aka]
    veor.64 d5, d0,  d1
    vstr.64  d3, [sp, #Ama]
    vstr.64  d4, [sp, #Asa]
    veor.64 d5, d5,  d4

    bl KeccakF_armv7a_neon_asm

    subs r3, #18	@ nlanes -= 18
    vpop.64  { d0-d4 }

    beq .Ldone

    b .Lfull_block_18

.Lfull_block_17:

    @ SHA3-256 & SHAKE256

    cmp r3, #17		@ nlanes < blocklanes
    blo .Llanes_loop

    sub    sp,sp, #5*8

    vld1.64 {d5-d8}, [r2]!
    veor d0,  d5
    vld1.64 {d9-d11}, [r2]!
    veor d12, d6
    veor d17, d7
    veor d22, d8
    vld1.64 {d5-d8}, [r2]!
    veor d27, d9

    veor d1,  d10
    veor d13, d11
    vld1.64 {d9-d11}, [r2]!
    veor d18, d5
    veor d23, d6
    veor d28, d7

    veor d2,  d8
    vld1.64 {d5-d7}, [r2]!
    veor d14, d9
    veor d19, d10
    veor d24, d11
    veor d29, d5

    veor d3,  d6
    veor d15, d7

    vstr.64  d0, [sp, #Aba]
    vstr.64  d1, [sp, #Aga]
    veor.64 q0, q0, q1
    vstr.64  d2, [sp, #Aka]
    veor.64 d5, d0,  d1
    vstr.64  d3, [sp, #Ama]
    vstr.64  d4, [sp, #Asa]
    veor.64 d5, d5,  d4

    bl KeccakF_armv7a_neon_asm

    subs r3, #17	@ nlanes -= 17
    vpop.64  { d0-d4 }

    beq .Ldone

    b .Lfull_block_17

.Lfull_block_13:

    @ SHA3-384

    cmp r3, #13		@ nlanes < blocklanes
    blo .Llanes_loop

    sub    sp,sp, #5*8

    vld1.64 {d5-d8}, [r2]!
    veor d0,  d5
    vld1.64 {d9-d11}, [r2]!
    veor d12, d6
    veor d17, d7
    veor d22, d8
    vld1.64 {d5-d8}, [r2]!
    veor d27, d9

    veor d1,  d10
    veor d13, d11
    vld1.64 {d9-d10}, [r2]!
    veor d18, d5
    veor d23, d6
    veor d28, d7

    veor d2,  d8
    veor d14, d9
    veor d19, d10

    vstr.64  d0, [sp, #Aba]
    vstr.64  d1, [sp, #Aga]
    veor.64 q0, q0, q1
    vstr.64  d2, [sp, #Aka]
    veor.64 d5, d0,  d1
    vstr.64  d3, [sp, #Ama]
    vstr.64  d4, [sp, #Asa]
    veor.64 d5, d5,  d4

    bl KeccakF_armv7a_neon_asm

    subs r3, #13	@ nlanes -= 13
    vpop.64  { d0-d4 }

    beq .Ldone

    b .Lfull_block_13

.Lfull_block_9:

    @ SHA3-512

    cmp r3, #9		@ nlanes < blocklanes
    blo .Llanes_loop

    sub    sp,sp, #5*8

    vld1.64 {d5-d8}, [r2]!
    veor d0,  d5
    vld1.64 {d9-d11}, [r2]!
    veor d12, d6
    veor d17, d7
    veor d22, d8
    vld1.64 {d5-d6}, [r2]!
    veor d27, d9

    veor d1,  d10
    veor d13, d11
    veor d18, d5
    veor d23, d6

    vstr.64  d0, [sp, #Aba]
    vstr.64  d1, [sp, #Aga]
    veor.64 q0, q0, q1
    vstr.64  d2, [sp, #Aka]
    veor.64 d5, d0,  d1
    vstr.64  d3, [sp, #Ama]
    vstr.64  d4, [sp, #Asa]
    veor.64 d5, d5,  d4

    bl KeccakF_armv7a_neon_asm

    subs r3, #9		@ nlanes -= 9
    vpop.64  { d0-d4 }

    beq .Ldone

    b .Lfull_block_9

.Llanes_loop:

    @ per-lane mode

    @ switch (pos)
    ldrb r0, [pc, r1]
    add pc, pc, r0, lsl #2
.Lswitch_table:
    .byte (.Llane0-.Lswitch_table-4)/4
    .byte (.Llane1-.Lswitch_table-4)/4
    .byte (.Llane2-.Lswitch_table-4)/4
    .byte (.Llane3-.Lswitch_table-4)/4
    .byte (.Llane4-.Lswitch_table-4)/4
    .byte (.Llane5-.Lswitch_table-4)/4
    .byte (.Llane6-.Lswitch_table-4)/4
    .byte (.Llane7-.Lswitch_table-4)/4
    .byte (.Llane8-.Lswitch_table-4)/4
    .byte (.Llane9-.Lswitch_table-4)/4
    .byte (.Llane10-.Lswitch_table-4)/4
    .byte (.Llane11-.Lswitch_table-4)/4
    .byte (.Llane12-.Lswitch_table-4)/4
    .byte (.Llane13-.Lswitch_table-4)/4
    .byte (.Llane14-.Lswitch_table-4)/4
    .byte (.Llane15-.Lswitch_table-4)/4
    .byte (.Llane16-.Lswitch_table-4)/4
    .byte (.Llane17-.Lswitch_table-4)/4
    .byte (.Llane18-.Lswitch_table-4)/4
    .byte (.Llane19-.Lswitch_table-4)/4
    .byte (.Llane20-.Lswitch_table-4)/4
    .byte (.Llane21-.Lswitch_table-4)/4
    .byte (.Llane22-.Lswitch_table-4)/4
    .byte (.Llane23-.Lswitch_table-4)/4
    .byte (.Llane24-.Lswitch_table-4)/4
.p2align 2

#define ABSORB_LANE(label, vreg) \
    label: \
      add     r1, #1; \
      vld1.64 d5, [r2]!; \
      cmp     r1, r5; /* pos == blocklanes */ \
      veor    vreg, vreg, d5; \
      beq     .Llanes_permute; \
      subs    r3, #1; \
      beq     .Ldone;

    ABSORB_LANE(.Llane0, d0)
    ABSORB_LANE(.Llane1, d12)
    ABSORB_LANE(.Llane2, d17)
    ABSORB_LANE(.Llane3, d22)
    ABSORB_LANE(.Llane4, d27)

    ABSORB_LANE(.Llane5, d1)
    ABSORB_LANE(.Llane6, d13)
    ABSORB_LANE(.Llane7, d18)
    ABSORB_LANE(.Llane8, d23)
    ABSORB_LANE(.Llane9, d28)

    ABSORB_LANE(.Llane10, d2)
    ABSORB_LANE(.Llane11, d14)
    ABSORB_LANE(.Llane12, d19)
    ABSORB_LANE(.Llane13, d24)
    ABSORB_LANE(.Llane14, d29)

    ABSORB_LANE(.Llane15, d3)
    ABSORB_LANE(.Llane16, d15)
    ABSORB_LANE(.Llane17, d20)
    ABSORB_LANE(.Llane18, d25)
    ABSORB_LANE(.Llane19, d30)

    ABSORB_LANE(.Llane20, d4)
    ABSORB_LANE(.Llane21, d16)
    ABSORB_LANE(.Llane22, d21)
    ABSORB_LANE(.Llane23, d26)
    ABSORB_LANE(.Llane24, d31)

    b .Llanes_loop

.Llanes_permute:

    sub    sp,sp, #5*8
    vstr.64  d0, [sp, #Aba]
    vstr.64  d1, [sp, #Aga]
    veor.64 q0, q0, q1
    vstr.64  d2, [sp, #Aka]
    veor.64 d5, d0,  d1
    vstr.64  d3, [sp, #Ama]
    vstr.64  d4, [sp, #Asa]
    veor.64 d5, d5,  d4

    bl KeccakF_armv7a_neon_asm

    mov  r1, #0   @ pos <= 0
    subs r3, #1

    vpop.64  { d0-d4 }

    beq  .Ldone

    b .Lmain_loop_pos0

.Ldone:

    @ save state
    vstr.64  d0,  [r4, #0*8]
    vstr.64  d12, [r4, #1*8]
    vstr.64  d17, [r4, #2*8]
    vstr.64  d22, [r4, #3*8]
    vstr.64  d27, [r4, #4*8]

    vstr.64  d1,  [r4, #5*8]
    vstr.64  d13, [r4, #6*8]
    vstr.64  d18, [r4, #7*8]
    vstr.64  d23, [r4, #8*8]
    vstr.64  d28, [r4, #9*8]

    vstr.64  d2,  [r4, #10*8]
    vstr.64  d14, [r4, #11*8]
    vstr.64  d19, [r4, #12*8]
    vstr.64  d24, [r4, #13*8]
    vstr.64  d29, [r4, #14*8]

    vstr.64  d3,  [r4, #15*8]
    vstr.64  d15, [r4, #16*8]
    vstr.64  d20, [r4, #17*8]
    vstr.64  d25, [r4, #18*8]
    vstr.64  d30, [r4, #19*8]

    vstr.64  d4,  [r4, #20*8]
    vstr.64  d16, [r4, #21*8]
    vstr.64  d21, [r4, #22*8]
    vstr.64  d26, [r4, #23*8]
    vstr.64  d31, [r4, #24*8]

    mov   r0, #120
    vpop  {q4-q7}
.Lout:
    pop   {r4-r5, ip, pc}
.p2align 2
.ltorg
.size _gcry_keccak_absorb_lanes64_armv7_neon,.-_gcry_keccak_absorb_lanes64_armv7_neon;

#endif