Subversion Repositories Kolibri OS

Rev

Blame | Last modification | View Log | RSS feed

  1. /*
  2.  * Copyright (c) 2014 Seppo Tomperi <seppo.tomperi@vtt.fi>
  3.  *
  4.  * This file is part of FFmpeg.
  5.  *
  6.  * FFmpeg is free software; you can redistribute it and/or
  7.  * modify it under the terms of the GNU Lesser General Public
  8.  * License as published by the Free Software Foundation; either
  9.  * version 2.1 of the License, or (at your option) any later version.
  10.  *
  11.  * FFmpeg is distributed in the hope that it will be useful,
  12.  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13.  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14.  * Lesser General Public License for more details.
  15.  *
  16.  * You should have received a copy of the GNU Lesser General Public
  17.  * License along with FFmpeg; if not, write to the Free Software
  18.  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  19.  */
  20.  
  21. #include "libavutil/arm/asm.S"
  22. #include "neon.S"
  23.  
  24. function ff_hevc_idct_4x4_dc_neon_8, export=1
  25.         ldrsh       r1, [r0]
  26.         ldr         r2, =0x20
  27.         add         r1, #1
  28.         asr         r1, #1
  29.         add         r1, r2
  30.         asr         r1, #6
  31.         vdup.16     q0, r1
  32.         vdup.16     q1, r1
  33.         vst1.16     {q0, q1}, [r0]
  34.         bx lr
  35. endfunc
  36.  
  37. function ff_hevc_idct_8x8_dc_neon_8, export=1
  38.         ldrsh       r1, [r0]
  39.         ldr         r2, =0x20
  40.         add         r1, #1
  41.         asr         r1, #1
  42.         add         r1, r2
  43.         asr         r1, #6
  44.         vdup.16     q8, r1
  45.         vdup.16     q9, r1
  46.         vmov.16     q10, q8
  47.         vmov.16     q11, q8
  48.         vmov.16     q12, q8
  49.         vmov.16     q13, q8
  50.         vmov.16     q14, q8
  51.         vmov.16     q15, q8
  52.         vstm        r0, {q8-q15}
  53.         bx lr
  54. endfunc
  55.  
  56. function ff_hevc_idct_16x16_dc_neon_8, export=1
  57.         ldrsh       r1, [r0]
  58.         ldr         r2, =0x20
  59.         add         r1, #1
  60.         asr         r1, #1
  61.         add         r1, r2
  62.         asr         r1, #6
  63.         vdup.16     q8, r1
  64.         vdup.16     q9, r1
  65.         vmov.16     q10, q8
  66.         vmov.16     q11, q8
  67.         vmov.16     q12, q8
  68.         vmov.16     q13, q8
  69.         vmov.16     q14, q8
  70.         vmov.16     q15, q8
  71.         vstm        r0!, {q8-q15}
  72.         vstm        r0!, {q8-q15}
  73.         vstm        r0!, {q8-q15}
  74.         vstm        r0, {q8-q15}
  75.         bx lr
  76. endfunc
  77.  
  78. function ff_hevc_idct_32x32_dc_neon_8, export=1
  79.         ldrsh       r1, [r0]
  80.         ldr         r2, =0x20
  81.         add         r1, #1
  82.         asr         r1, #1
  83.         add         r1, r2
  84.         asr         r1, #6
  85.         mov         r3, #16
  86.         vdup.16     q8, r1
  87.         vdup.16     q9, r1
  88.         vmov.16     q10, q8
  89.         vmov.16     q11, q8
  90.         vmov.16     q12, q8
  91.         vmov.16     q13, q8
  92.         vmov.16     q14, q8
  93.         vmov.16     q15, q8
  94. 1:      subs        r3, #1
  95.         vstm        r0!, {q8-q15}
  96.         bne         1b
  97.         bx lr
  98. endfunc
  99.  
  100. function ff_hevc_transform_add_4x4_neon_8, export=1
  101.         vldm        r1, {q0-q1}
  102.         vld1.32     d4[0], [r0], r2
  103.         vld1.32     d4[1], [r0], r2
  104.         vld1.32     d5[0], [r0], r2
  105.         vld1.32     d5[1], [r0], r2
  106.         sub         r0, r0, r2, lsl #2
  107.         vmovl.u8    q8, d4
  108.         vmovl.u8    q9, d5
  109.         vqadd.s16   q0, q0, q8
  110.         vqadd.s16   q1, q1, q9
  111.         vqmovun.s16 d0, q0
  112.         vqmovun.s16 d1, q1
  113.         vst1.32     d0[0], [r0], r2
  114.         vst1.32     d0[1], [r0], r2
  115.         vst1.32     d1[0], [r0], r2
  116.         vst1.32     d1[1], [r0], r2
  117.         bx          lr
  118. endfunc
  119.  
  120. function ff_hevc_transform_add_8x8_neon_8, export=1
  121.         mov         r3,   #8
  122. 1:      subs        r3,   #1
  123.         vld1.16     {q0}, [r1]!
  124.         vld1.8      d16,  [r0]
  125.         vmovl.u8    q8,   d16
  126.         vqadd.s16   q0,   q8
  127.         vqmovun.s16 d0,   q0
  128.         vst1.32     d0,   [r0], r2
  129.         bne         1b
  130.         bx          lr
  131. endfunc
  132.  
  133. function ff_hevc_transform_add_16x16_neon_8, export=1
  134.         mov         r3,   #16
  135. 1:      subs        r3,   #1
  136.         vld1.16     {q0, q1}, [r1]!
  137.         vld1.8      {q8},  [r0]
  138.         vmovl.u8    q9,  d16
  139.         vmovl.u8    q10, d17
  140.         vqadd.s16   q0,  q9
  141.         vqadd.s16   q1,  q10
  142.         vqmovun.s16 d0,  q0
  143.         vqmovun.s16 d1,  q1
  144.         vst1.8      {q0},   [r0], r2
  145.         bne         1b
  146.         bx          lr
  147. endfunc
  148.  
  149. function ff_hevc_transform_add_32x32_neon_8, export=1
  150.         mov         r3,   #32
  151. 1:      subs        r3,   #1
  152.         vldm        r1!, {q0-q3}
  153.         vld1.8      {q8, q9},  [r0]
  154.         vmovl.u8    q10, d16
  155.         vmovl.u8    q11, d17
  156.         vmovl.u8    q12, d18
  157.         vmovl.u8    q13, d19
  158.         vqadd.s16   q0,  q10
  159.         vqadd.s16   q1,  q11
  160.         vqadd.s16   q2,  q12
  161.         vqadd.s16   q3,  q13
  162.         vqmovun.s16 d0,  q0
  163.         vqmovun.s16 d1,  q1
  164.         vqmovun.s16 d2,  q2
  165.         vqmovun.s16 d3,  q3
  166.         vst1.8     {q0, q1},   [r0], r2
  167.         bne         1b
  168.         bx          lr
  169. endfunc
  170.  
  171. .macro  transpose_16b_8x8   r0, r1, r2, r3, r4, r5, r6, r7
  172.         vtrn.64         \r0, \r4
  173.         vtrn.64         \r1, \r5
  174.         vtrn.64         \r2, \r6
  175.         vtrn.64         \r3, \r7
  176.         vtrn.32         \r0, \r2
  177.         vtrn.32         \r1, \r3
  178.         vtrn.32         \r4, \r6
  179.         vtrn.32         \r5, \r7
  180.         vtrn.16         \r0, \r1
  181.         vtrn.16         \r2, \r3
  182.         vtrn.16         \r4, \r5
  183.         vtrn.16         \r6, \r7
  184. .endm
  185.  
  186. // in 4 q regs
  187. // output 8 d regs
  188. .macro transpose_16b_4x4    r0, r1, r2, r3
  189.         vtrn.32         \r0, \r2
  190.         vtrn.32         \r1, \r3
  191.         vtrn.16         \r0, \r1
  192.         vtrn.16         \r2, \r3
  193. .endm
  194.  
  195. /* uses registers q2 - q9 for temp values */
  196. /* TODO: reorder */
  197. .macro tr4_luma_shift r0, r1, r2, r3, shift
  198.         vaddl.s16   q5, \r0, \r2    // c0 = src0 + src2
  199.         vaddl.s16   q2, \r2, \r3    // c1 = src2 + src3
  200.         vsubl.s16   q4, \r0, \r3    // c2 = src0 - src3
  201.         vmull.s16   q6, \r1, d0[0]  // c3 = 74 * src1
  202.  
  203.         vaddl.s16   q7, \r0, \r3    // src0 + src3
  204.         vsubw.s16   q7, q7, \r2     // src0 - src2 + src3
  205.         vmul.s32    q7, q7, d0[0]   // dst2 = 74 * (src0 - src2 + src3)
  206.  
  207.         vmul.s32    q8, q5, d0[1]   // 29 * c0
  208.         vmul.s32    q9, q2, d1[0]   // 55 * c1
  209.         vadd.s32    q8, q9          // 29 * c0 + 55 * c1
  210.         vadd.s32    q8, q6          // dst0 = 29 * c0 + 55 * c1 + c3
  211.  
  212.         vmul.s32    q2, q2, d0[1]   // 29 * c1
  213.         vmul.s32    q9, q4, d1[0]   // 55 * c2
  214.         vsub.s32    q9, q2          // 55 * c2 - 29 * c1
  215.         vadd.s32    q9, q6          // dst1 = 55 * c2 - 29 * c1 + c3
  216.  
  217.         vmul.s32    q5, q5, d1[0]   // 55 * c0
  218.         vmul.s32    q4, q4, d0[1]   // 29 * c2
  219.         vadd.s32    q5, q4          // 55 * c0 + 29 * c2
  220.         vsub.s32    q5, q6          // dst3 = 55 * c0 + 29 * c2 - c3
  221.  
  222.         vqrshrn.s32   \r0, q8, \shift
  223.         vqrshrn.s32   \r1, q9, \shift
  224.         vqrshrn.s32   \r2, q7, \shift
  225.         vqrshrn.s32   \r3, q5, \shift
  226. .endm
  227.  
  228. /* uses registers q2 - q6 for temp values */
  229. .macro tr4 r0, r1, r2, r3
  230.         vmull.s16  q4, \r1, d0[0]   // 83 * src1
  231.         vmull.s16  q6, \r1, d0[1]   // 36 * src1
  232.         vshll.s16  q2, \r0, #6   // 64 * src0
  233.         vshll.s16  q3, \r2, #6   // 64 * src2
  234.         vadd.s32   q5, q2, q3    // 64 * (src0 + src2)     e0
  235.         vsub.s32   q2, q2, q3    // 64 * (src0 - src2)     e1
  236.         vmlal.s16  q4, \r3, d0[1]   // 83 * src1 + 36 * src3  o0
  237.         vmlsl.s16  q6, \r3, d0[0]   // 36 * src1 - 83 * src3  o1
  238.  
  239.         vsub.s32   q3, q5, q4    // e0 - o0
  240.         vadd.s32   q4, q5, q4    // e0 + o0
  241.         vadd.s32   q5, q2, q6    // e1 + o1
  242.         vsub.s32   q6, q2, q6    // e1 - o1
  243. .endm
  244.  
  245. .macro tr4_shift r0, r1, r2, r3, shift
  246.         vmull.s16  q4, \r1, d0[0]   // 83 * src1
  247.         vmull.s16  q6, \r1, d0[1]   // 36 * src1
  248.         vshll.s16  q2, \r0, #6   // 64 * src0
  249.         vshll.s16  q3, \r2, #6   // 64 * src2
  250.         vadd.s32   q5, q2, q3    // 64 * (src0 + src2)     e0
  251.         vsub.s32   q2, q2, q3    // 64 * (src0 - src2)     e1
  252.         vmlal.s16  q4, \r3, d0[1]   // 83 * src1 + 36 * src3  o0
  253.         vmlsl.s16  q6, \r3, d0[0]   // 36 * src1 - 83 * src3  o1
  254.  
  255.         vsub.s32   q3, q5, q4    // e0 - o0
  256.         vadd.s32   q4, q5, q4    // e0 + o0
  257.         vadd.s32   q5, q2, q6    // e1 + o1
  258.         vsub.s32   q6, q2, q6    // e1 - o1
  259.  
  260.         vqrshrn.s32   \r0, q4, \shift
  261.         vqrshrn.s32   \r1, q5, \shift
  262.         vqrshrn.s32   \r2, q6, \shift
  263.         vqrshrn.s32   \r3, q3, \shift
  264. .endm
  265.  
  266. function ff_hevc_transform_4x4_neon_8, export=1
  267.         vpush       {d8-d15}
  268.         vld1.16     {q14, q15}, [r0]  // coeffs
  269.         ldr         r3, =0x00240053 // 36 and 83
  270.         vmov.32     d0[0], r3
  271.  
  272.         tr4_shift d28, d29, d30, d31, #7
  273.  
  274.         vtrn.16     d28, d29
  275.         vtrn.16     d30, d31
  276.         vtrn.32     q14, q15
  277.  
  278.         tr4_shift d28, d29, d30, d31, #12
  279.  
  280.         vtrn.16     d28, d29
  281.         vtrn.16     d30, d31
  282.         vtrn.32     q14, q15
  283.  
  284.         vst1.16     {q14, q15}, [r0]
  285.         vpop        {d8-d15}
  286.         bx lr
  287. endfunc
  288.  
  289. function ff_hevc_transform_luma_4x4_neon_8, export=1
  290.         vpush       {d8-d15}
  291.         vld1.16     {q14, q15}, [r0]  // coeffs
  292.         ldr         r3, =0x4a  // 74
  293.         vmov.32     d0[0], r3
  294.         ldr         r3, =0x1d  // 29
  295.         vmov.32     d0[1], r3
  296.         ldr         r3, =0x37  // 55
  297.         vmov.32     d1[0], r3
  298.  
  299.         tr4_luma_shift d28, d29, d30, d31, #7
  300.  
  301.         vtrn.16     d28, d29
  302.         vtrn.16     d30, d31
  303.         vtrn.32     q14, q15
  304.  
  305.         tr4_luma_shift d28, d29, d30, d31, #12
  306.  
  307.         vtrn.16     d28, d29
  308.         vtrn.16     d30, d31
  309.         vtrn.32     q14, q15
  310.         vst1.16     {q14, q15}, [r0]
  311.         vpop        {d8-d15}
  312.         bx lr
  313. endfunc
  314.  
  315. .macro tr8_begin in0, in1, in2, in3
  316.         vmull.s16  q7, \in0, d1[1]   // 89 * src1
  317.         vmull.s16  q8, \in0, d1[0]   // 75 * src1
  318.         vmull.s16  q9, \in0, d1[3]   // 50 * src1
  319.         vmull.s16  q10, \in0, d1[2]  // 18 * src1
  320.  
  321.         vmlal.s16  q7, \in1, d1[0]   // 75 * src3
  322.         vmlsl.s16  q8, \in1, d1[2]   //-18 * src3
  323.         vmlsl.s16  q9, \in1, d1[1]   //-89 * src3
  324.         vmlsl.s16  q10, \in1, d1[3]  //-50 * src3
  325.  
  326.         vmlal.s16  q7, \in2, d1[3]   // 50 * src5
  327.         vmlsl.s16  q8, \in2, d1[1]   //-89 * src5
  328.         vmlal.s16  q9, \in2, d1[2]   // 18 * src5
  329.         vmlal.s16  q10, \in2, d1[0]  // 75 * src5
  330.  
  331.         vmlal.s16  q7, \in3, d1[2]   // 18 * src7
  332.         vmlsl.s16  q8, \in3, d1[3]   //-50 * src7
  333.         vmlal.s16  q9, \in3, d1[0]   // 75 * src7
  334.         vmlsl.s16  q10, \in3, d1[1]  //-89 * src7
  335. .endm
  336.  
  337. .macro tr8_end shift
  338.         vadd.s32   q1, q4, q7   //  e_8[0] + o_8[0], dst[0]
  339.         vsub.s32   q4, q4, q7   //  e_8[0] - o_8[0], dst[7]
  340.  
  341.         vadd.s32   q2, q5, q8   // e_8[1] + o_8[1], dst[1]
  342.         vsub.s32   q5, q5, q8   // e_8[1] - o_8[1], dst[6]
  343.  
  344.         vadd.s32   q11, q6, q9  // e_8[2] + o_8[2], dst[2]
  345.         vsub.s32    q6, q6, q9  // e_8[2] - o_8[2], dst[5]
  346.  
  347.         vadd.s32   q12, q3, q10 // e_8[3] + o_8[3], dst[3]
  348.         vsub.s32   q3, q3, q10  // e_8[3] - o_8[3], dst[4]
  349.         vqrshrn.s32   d2, q1, \shift
  350.         vqrshrn.s32   d3, q2, \shift
  351.         vqrshrn.s32   d4, q11, \shift
  352.         vqrshrn.s32   d5, q12, \shift
  353.         vqrshrn.s32   d6, q3, \shift
  354.         vqrshrn.s32   d7, q6, \shift
  355.         vqrshrn.s32   d9, q4, \shift
  356.         vqrshrn.s32   d8, q5, \shift
  357. .endm
  358.  
  359. function ff_hevc_transform_8x8_neon_8, export=1
  360.         push   {r4-r8}
  361.         vpush {d8-d15}
  362.         mov    r5, #16
  363.  
  364.         adr       r3, tr4f
  365.         vld1.16   {d0, d1}, [r3]
  366.  
  367.         // left half
  368.         vld1.16 {d24}, [r0], r5
  369.         vld1.16 {d25}, [r0], r5
  370.         vld1.16 {d26}, [r0], r5
  371.         vld1.16 {d27}, [r0], r5
  372.         vld1.16 {d28}, [r0], r5
  373.         vld1.16 {d29}, [r0], r5
  374.         vld1.16 {d30}, [r0], r5
  375.         vld1.16 {d31}, [r0], r5
  376.         sub      r0, #128
  377.         tr8_begin d25, d27, d29, d31
  378.         tr4       d24, d26, d28, d30
  379.         tr8_end   #7
  380.         vst1.16 {d2}, [r0], r5
  381.         vst1.16 {d3}, [r0], r5
  382.         vst1.16 {d4}, [r0], r5
  383.         vst1.16 {d5}, [r0], r5
  384.         vst1.16 {d6}, [r0], r5
  385.         vst1.16 {d7}, [r0], r5
  386.         vst1.16 {d8}, [r0], r5
  387.         vst1.16 {d9}, [r0], r5
  388.         sub      r0, #128
  389.         //skip right half if col_limit in r1 is less than 4
  390.         cmp      r1, #4
  391.         blt      1f
  392.         //right half
  393.         add      r0, #8
  394.         vld1.16 {d24}, [r0], r5
  395.         vld1.16 {d25}, [r0], r5
  396.         vld1.16 {d26}, [r0], r5
  397.         vld1.16 {d27}, [r0], r5
  398.         vld1.16 {d28}, [r0], r5
  399.         vld1.16 {d29}, [r0], r5
  400.         vld1.16 {d30}, [r0], r5
  401.         vld1.16 {d31}, [r0], r5
  402.         sub      r0, #128
  403.         tr8_begin d25, d27, d29, d31
  404.         tr4       d24, d26, d28, d30
  405.         tr8_end   #7
  406.         vst1.16 {d2}, [r0], r5
  407.         vst1.16 {d3}, [r0], r5
  408.         vst1.16 {d4}, [r0], r5
  409.         vst1.16 {d5}, [r0], r5
  410.         vst1.16 {d6}, [r0], r5
  411.         vst1.16 {d7}, [r0], r5
  412.         vst1.16 {d8}, [r0], r5
  413.         vst1.16 {d9}, [r0], r5
  414.         sub      r0, #136
  415. 1:
  416.         // top half
  417.         vldm r0, {q12-q15} // coeffs
  418.         transpose_16b_4x4 d24, d26, d28, d30
  419.         transpose_16b_4x4 d25, d27, d29, d31
  420.         tr8_begin d26, d30, d27, d31
  421.         tr4 d24, d28, d25, d29
  422.         tr8_end #12
  423.         transpose_16b_4x4 d2, d3, d4, d5
  424.         transpose_16b_4x4 d6, d7, d8, d9
  425.         vswp     d7, d5
  426.         vswp     d7, d8
  427.         vswp     d3, d6
  428.         vswp     d6, d4
  429.         vstm r0!, {q1-q4}
  430.  
  431.         // bottom half
  432.         vldm r0, {q12-q15} // coeffs
  433.         transpose_16b_4x4 d24, d26, d28, d30
  434.         transpose_16b_4x4 d25, d27, d29, d31
  435.         tr8_begin d26, d30, d27, d31
  436.         tr4 d24, d28, d25, d29
  437.         tr8_end #12
  438.         transpose_16b_4x4 d2, d3, d4, d5
  439.         transpose_16b_4x4 d6, d7, d8, d9
  440.         vswp     d7, d5
  441.         vswp     d7, d8
  442.         vswp     d3, d6
  443.         vswp     d6, d4
  444.         //vstm     r0, {q1-q4}
  445.         vst1.16 {q1-q2}, [r0]
  446.         add     r0, #32
  447.         vst1.16 {q3-q4}, [r0]
  448.         sub     r0, #32
  449.         vpop {d8-d15}
  450.         pop {r4-r8}
  451.         bx lr
  452. endfunc
  453.  
  454. .align 4
  455. tr4f:
  456. .word 0x00240053  // 36 and d1[0] = 83
  457. .word 0x00000000
  458. tr8f:
  459. .word 0x0059004b  // 89, d0[0] = 75
  460. .word 0x00320012  // 50, d0[2] = 18
  461. tr16:
  462. .word 0x005a0057  // 90, d2[0] = 87
  463. .word 0x00500046  // 80, d2[2] = 70
  464. .word 0x0039002b  // 57, d2[0] = 43
  465. .word 0x00190009  // 25, d2[2] = 9
  466.