Subversion Repositories Kolibri OS

Rev

Blame | Last modification | View Log | RSS feed

  1. /*
  2.  * All Video Processing kernels
  3.  * Copyright © <2010>, Intel Corporation.
  4.  *
  5.  * Permission is hereby granted, free of charge, to any person obtaining a
  6.  * copy of this software and associated documentation files (the
  7.  * "Software"), to deal in the Software without restriction, including
  8.  * without limitation the rights to use, copy, modify, merge, publish,
  9.  * distribute, sub license, and/or sell copies of the Software, and to
  10.  * permit persons to whom the Software is furnished to do so, subject to
  11.  * the following conditions:
  12.  *
  13.  * The above copyright notice and this permission notice (including the
  14.  * next paragraph) shall be included in all copies or substantial portions
  15.  * of the Software.
  16.  *
  17.  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
  18.  * OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
  19.  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT.
  20.  * IN NO EVENT SHALL PRECISION INSIGHT AND/OR ITS SUPPLIERS BE LIABLE FOR
  21.  * ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT,
  22.  * TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
  23.  * SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
  24.  *
  25.  * This file was originally licensed under the following license
  26.  *
  27.  *  Licensed under the Apache License, Version 2.0 (the "License");
  28.  *  you may not use this file except in compliance with the License.
  29.  *  You may obtain a copy of the License at
  30.  *
  31.  *      http://www.apache.org/licenses/LICENSE-2.0
  32.  *
  33.  *  Unless required by applicable law or agreed to in writing, software
  34.  *  distributed under the License is distributed on an "AS IS" BASIS,
  35.  *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  36.  *  See the License for the specific language governing permissions and
  37.  *  limitations under the License.
  38.  *
  39.  * Authors:
  40.  *    Halley Zhao <halley.zhao@intel.com>
  41.  */
  42.  
  43. // Module name: RGBX_Save_YUV_Float.asm
  44. //----------------------------------------------------------------
  45.  
  46. #include "RGBX_Load_16x8.inc"
  47.  
  48. #if (0)
  49.     // 8 grf reg for one row of pixel (2 pixel per grf)
  50.     #define nTEMP0          34
  51.     #define nTEMP1          35
  52.     #define nTEMP2          36
  53.     #define nTEMP3          37
  54.     #define nTEMP4          38
  55.     #define nTEMP5          39
  56.     #define nTEMP6          40
  57.     #define nTEMP7          41
  58.    
  59.     #define nTEMP8          42        // transformation coefficient
  60.     #define nTEMP10         44        // transformation coefficient
  61.    
  62.     #define nTEMP12         46        // save Y/U/V in ub format
  63.     #define nTEMP14         48        // save YUV in ud format
  64.     #define nTEMP16         50        // dp4 result
  65.     #define nTEMP17         51        
  66.     #define nTEMP18         52
  67.    
  68.     #define nTEMP24         58
  69. #endif
  70.  
  71. $for(0; <nY_NUM_OF_ROWS; 1) {
  72.     // BGRX | B | G | R | X |
  73.     // ###### save one row of pixel to temp grf with float format (required by dp4)
  74.     // mov (8) doesn't work, puzzle
  75.    mov (4) REG(r, nTEMP0)<1>:f       r[SRC_RGBA_OFFSET_1,%1*32 +  0]<4,1>:ub
  76.    mov (4) REG(r, nTEMP1)<1>:f       r[SRC_RGBA_OFFSET_1,%1*32 +  8]<4,1>:ub
  77.    mov (4) REG(r, nTEMP2)<1>:f       r[SRC_RGBA_OFFSET_1,%1*32 + 16]<4,1>:ub
  78.    mov (4) REG(r, nTEMP3)<1>:f       r[SRC_RGBA_OFFSET_1,%1*32 + 24]<4,1>:ub
  79.    mov (4) REG(r, nTEMP4)<1>:f       r[SRC_RGBA_OFFSET_2,%1*32 +  0]<4,1>:ub
  80.    mov (4) REG(r, nTEMP5)<1>:f       r[SRC_RGBA_OFFSET_2,%1*32 +  8]<4,1>:ub
  81.    mov (4) REG(r, nTEMP6)<1>:f       r[SRC_RGBA_OFFSET_2,%1*32 + 16]<4,1>:ub
  82.    mov (4) REG(r, nTEMP7)<1>:f       r[SRC_RGBA_OFFSET_2,%1*32 + 24]<4,1>:ub
  83.    mov (4) REG2(r, nTEMP0, 4)<1>:f   r[SRC_RGBA_OFFSET_1,%1*32 +  4]<4,1>:ub
  84.    mov (4) REG2(r, nTEMP1, 4)<1>:f   r[SRC_RGBA_OFFSET_1,%1*32 + 12]<4,1>:ub
  85.    mov (4) REG2(r, nTEMP2, 4)<1>:f   r[SRC_RGBA_OFFSET_1,%1*32 + 20]<4,1>:ub
  86.    mov (4) REG2(r, nTEMP3, 4)<1>:f   r[SRC_RGBA_OFFSET_1,%1*32 + 28]<4,1>:ub
  87.    mov (4) REG2(r, nTEMP4, 4)<1>:f   r[SRC_RGBA_OFFSET_2,%1*32 +  4]<4,1>:ub
  88.    mov (4) REG2(r, nTEMP5, 4)<1>:f   r[SRC_RGBA_OFFSET_2,%1*32 + 12]<4,1>:ub
  89.    mov (4) REG2(r, nTEMP6, 4)<1>:f   r[SRC_RGBA_OFFSET_2,%1*32 + 20]<4,1>:ub
  90.    mov (4) REG2(r, nTEMP7, 4)<1>:f   r[SRC_RGBA_OFFSET_2,%1*32 + 24]<4,1>:ub
  91.  
  92.    // ###### do one row for Y
  93.    // ##### dp4(nTEMP16) and save result to uw format(nTEMP12)
  94.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(0, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  95.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  96.    mov (2)  REG2(r, nTEMP12,  0)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  97.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(1, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  98.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  99.    mov (2)  REG2(r, nTEMP12,  2)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  100.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(2, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  101.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  102.    mov (2)  REG2(r, nTEMP12,  4)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  103.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(3, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  104.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  105.    mov (2)  REG2(r, nTEMP12,  6)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  106.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(4, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  107.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  108.    mov (2)  REG2(r, nTEMP12,  8)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  109.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(5, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  110.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  111.    mov (2)  REG2(r, nTEMP12, 10)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  112.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(6, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  113.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  114.    mov (2)  REG2(r, nTEMP12, 12)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  115.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f      fROW_BGRX(7, 0)<0;8,1>       fRGB_to_Y_Coef_Float<0;4,1>:f
  116.    mov (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  117.    mov (2)  REG2(r, nTEMP12, 14)<1>:ub     REG2(r, nTEMP14, 0)<0;2,4>:ub
  118.  
  119.    // ####  write Y to the 1 row
  120.    mov (16) uwDEST_Y(%1)<1>  REG2(r,nTEMP12,  0)<0;16,1>:ub
  121.    
  122.    // ###### do one row for U
  123.    // ##### dp4(nTEMP16) and save result to uw format(nTEMP12)
  124.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(0, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  125.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  126.    mov (2)  REG2(r, nTEMP12,  0)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  127.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(1, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  128.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  129.    mov (2)  REG2(r, nTEMP12,  2)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  130.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(2, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  131.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  132.    mov (2)  REG2(r, nTEMP12,  4)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  133.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(3, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  134.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  135.    mov (2)  REG2(r, nTEMP12,  6)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  136.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(4, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  137.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  138.    mov (2)  REG2(r, nTEMP12,  8)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  139.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(5, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  140.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  141.    mov (2)  REG2(r, nTEMP12, 10)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  142.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(6, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  143.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  144.    mov (2)  REG2(r, nTEMP12, 12)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  145.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(7, 0)<0;8,1>        fRGB_to_U_Coef_Float<0;4,1>:f
  146.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  147.    mov (2)  REG2(r, nTEMP12, 14)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  148.    add (16) REG2(r, nTEMP12,  0)<1>:w     REG2(r, nTEMP12, 0)<0;16,1>:w   128:w
  149.    // ####  write U to the 1 row
  150.    mov (16) uwDEST_U(%1)<1>  REG2(r,nTEMP12,  0)<0;16,2>:ub
  151.    
  152.    // ###### do one row for V
  153.    // ##### dp4(nTEMP16) and save result to uw format(nTEMP12)
  154.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(0, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  155.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  156.    mov (2)  REG2(r, nTEMP12,  0)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  157.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(1, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  158.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  159.    mov (2)  REG2(r, nTEMP12,  2)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  160.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(2, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  161.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  162.    mov (2)  REG2(r, nTEMP12,  4)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  163.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(3, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  164.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  165.    mov (2)  REG2(r, nTEMP12,  6)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  166.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(4, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  167.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  168.    mov (2)  REG2(r, nTEMP12,  8)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  169.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(5, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  170.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  171.    mov (2)  REG2(r, nTEMP12, 10)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  172.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(6, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  173.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  174.    mov (2)  REG2(r, nTEMP12, 12)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  175.    dp4 (8)  REG2(r, nTEMP16,  0)<1>:f     fROW_BGRX(7, 0)<0;8,1>        fRGB_to_V_Coef_Float<0;4,1>:f
  176.    mov (2)  REG2(r, nTEMP14,  0)<1>:d     REG2(r, nTEMP16, 0)<0;2,4>:f
  177.    mov (2)  REG2(r, nTEMP12, 14)<1>:w     REG2(r, nTEMP14, 0)<0;2,2>:w
  178.    add (16) REG2(r, nTEMP12,  0)<1>:w     REG2(r, nTEMP12, 0)<0;16,1>:w   128:w
  179.  
  180.    // ####  write V to the 1 row
  181.    mov (16) uwDEST_V(%1)<1>  REG2(r,nTEMP12,  0)<0;16,2>:ub
  182. }
  183.