Subversion Repositories Kolibri OS

Rev

Blame | Last modification | View Log | RSS feed

  1. /*
  2.  * All Video Processing kernels
  3.  * Copyright © <2010>, Intel Corporation.
  4.  *
  5.  * This program is licensed under the terms and conditions of the
  6.  * Eclipse Public License (EPL), version 1.0.  The full text of the EPL is at
  7.  * http://www.opensource.org/licenses/eclipse-1.0.php.
  8.  *
  9.  * Authors:
  10.  *    Halley Zhao <halley.zhao@intel.com>
  11.  */
  12.  
  13. // Module name: YUVX_Save_RGBX_Float.asm
  14. //----------------------------------------------------------------
  15.  
  16. #include "RGBX_Load_16x8.inc"
  17.  
  18. #if (0)
  19.     // 8 grf reg for one row of pixel (2 pixel per grf)
  20.     #define nTEMP0          34
  21.     #define nTEMP1          35
  22.     #define nTEMP2          36
  23.     #define nTEMP3          37
  24.     #define nTEMP4          38
  25.     #define nTEMP5          39
  26.     #define nTEMP6          40
  27.     #define nTEMP7          41
  28.    
  29.     #define nTEMP8          42        // transformation coefficient
  30.     #define nTEMP10         44        // transformation coefficient
  31.    
  32.     #define nTEMP12         46        // save Y/U/V in ub format
  33.     #define nTEMP14         48        // save YUV in ud format
  34.     #define nTEMP16         50        // dp4 result
  35.     #define nTEMP17         51        
  36.     #define nTEMP18         52       // temp used for repeat U/V in NV12_Load_8x4.asm
  37.    
  38.     #define nTEMP24         58       // it is not safe to use in my case. I try to use it for repeat U/V in NV12_Load_8x4.asm, Y data is taint in row 4/5
  39. #endif
  40.  
  41. #define ONE_ROW_DEBUG                      0
  42.  
  43. #if (ONE_ROW_DEBUG)
  44.     // if you want to debug a row which is not the first one, try the following:
  45.     // 1. define ROW_NUM_READ to the row you want to debug
  46.     // 2. ROW_NUM_WRITE can be same to DBG_ROWNUM_READ to overwrite original YUV data, or define it to a new row
  47.     // 3. change (DBG_ROWNUM_BASE+?)=ROW_NUM_READ or ROW_NUM_WRITE to DBG_ROWNUM_0, to not conflict with others
  48.     #define ROW_NUM_READ                   0
  49.     #define ROW_NUM_WRITE                  0
  50.     #define DBG_ROWNUM_BASE                1
  51.     #define DBG_ROWNUM_0                   0
  52. #else
  53.     #define ROW_NUM_READ                   %1
  54.     #define ROW_NUM_WRITE                  %1
  55.     $for(0; <nY_NUM_OF_ROWS; 1) {
  56. #endif    
  57.     // YUVX | Y | U | V | X |
  58.     // XRGB | B | G | R | X |
  59.     // ###### save one row of pixel to temp grf with float format (required by dp4)
  60.     // C = Y' - 16          D = U - 128         E = V - 128
  61.  
  62.    // the follow sentence doesn't work, I have to split it into two step
  63.     // add (4) REG(r, nTEMP0)<1>:f       r[SRC_RGBA_OFFSET_1,ROW_NUM_READ*32 +  0]<4,1>:ub           REG2(r, nTEMP10,  16)<0;4,1>:b
  64.  
  65.     add (16)     REG2(r,nTEMP12,0)<1>:w           ubDEST_RGBX(0,ROW_NUM_READ*64   )<0;16,1>           bYUV_OFF<0;4,1>:b
  66.     add (16)     REG2(r,nTEMP14,0)<1>:w           ubDEST_RGBX(0,ROW_NUM_READ*64+16)<0;16,1>           bYUV_OFF<0;4,1>:b
  67.     add (16)     REG2(r,nTEMP16,0)<1>:w           ubDEST_RGBX(0,ROW_NUM_READ*64+32)<0;16,1>           bYUV_OFF<0;4,1>:b
  68.     add (16)     REG2(r,nTEMP17,0)<1>:w           ubDEST_RGBX(0,ROW_NUM_READ*64+48)<0;16,1>           bYUV_OFF<0;4,1>:b
  69.    
  70.     mov (8)      fROW_YUVA(0,0)<1>            REG2(r, nTEMP12, 0)<0;8,1>:w
  71.     mov (8)      fROW_YUVA(1,0)<1>            REG2(r, nTEMP12, 8)<0;8,1>:w
  72.     mov (8)      fROW_YUVA(2,0)<1>            REG2(r, nTEMP14, 0)<0;8,1>:w
  73.     mov (8)      fROW_YUVA(3,0)<1>            REG2(r, nTEMP14, 8)<0;8,1>:w
  74.     mov (8)      fROW_YUVA(4,0)<1>            REG2(r, nTEMP16, 0)<0;8,1>:w
  75.     mov (8)      fROW_YUVA(5,0)<1>            REG2(r, nTEMP16, 8)<0;8,1>:w
  76.     mov (8)      fROW_YUVA(6,0)<1>            REG2(r, nTEMP17, 0)<0;8,1>:w
  77.     mov (8)      fROW_YUVA(7,0)<1>            REG2(r, nTEMP17, 8)<0;8,1>:w
  78.  
  79.   #if (ONE_ROW_DEBUG)
  80.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(0,0)<0;8,1>:f
  81.     mov (8)  REG2(r, nTEMP12,   0)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  82.    
  83.         // write Y-16, U-128, V-128 to the 2nd row of RGB (convert float to int first, write whole ud): 1st half, 2 pixels
  84.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE)*64   )<1>  REG2(r,nTEMP14,  0)<0;16,1>:ub
  85.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE)*64+16)<1>  REG2(r,nTEMP14, 16)<0;16,1>:ub
  86.  
  87.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(1,0)<0;8,1>:f
  88.     mov (8)  REG2(r, nTEMP12,   8)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  89.    
  90.         // write Y-16, U-128, V-128 to the 2nd row of RGB (convert float to int first, write whole ud): 2nd half, 2 pixels
  91.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE)*64+32)<1>  REG2(r,nTEMP14,  0)<0;16,1>:ub
  92.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE)*64+48)<1>  REG2(r,nTEMP14, 16)<0;16,1>:ub
  93.  
  94.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(2,0)<0;8,1>:f
  95.     mov (8)  REG2(r, nTEMP12,  16)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  96.    
  97.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(3,0)<0;8,1>:f
  98.     mov (8)  REG2(r, nTEMP12,  24)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  99.  
  100.         // write Y-16, U-128, V-128 to the 3rd row of RGB (convert float to int first, only LSB is used): 1st half, 8 pixels
  101.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+1)*64   )<1>  REG2(r,nTEMP12,  0)<0;16,1>:ub
  102.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+1)*64+16)<1>  REG2(r,nTEMP12, 16)<0;16,1>:ub
  103.    
  104.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(4,0)<0;8,1>:f
  105.     mov (8)  REG2(r, nTEMP12,   0)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  106.    
  107.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(5,0)<0;8,1>:f
  108.     mov (8)  REG2(r, nTEMP12,   8)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  109.  
  110.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(6,0)<0;8,1>:f
  111.     mov (8)  REG2(r, nTEMP12,  16)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  112.    
  113.     mov.sat (8)  REG2(r, nTEMP14,  0)<1>:ud     fROW_YUVA(7,0)<0;8,1>:f
  114.     mov (8)  REG2(r, nTEMP12,  24)<1>:ub        REG2(r, nTEMP14, 0)<0;8,4>:ub
  115.  
  116.         // write Y-16, U-128, V-128 to the 3rd row of RGB (convert float to int first, only LSB is used): 2nd half, 8 pixels
  117.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+1)*64+32)<1>  REG2(r,nTEMP12,  0)<0;16,1>:ub
  118.         mov (16) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+1)*64+48)<1>  REG2(r,nTEMP12, 16)<0;16,1>:ub
  119.   #endif
  120.  
  121.         // ######## do one row for Red ########
  122.     #define fCOEF_REG  fYUV_to_RGB_CH2_Coef_Float
  123.     #define CHANNEL   2
  124.     // ##### dp4(nTEMP16) and save result to uw format(nTEMP12)
  125.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(0, 0)<0;8,1>   fCOEF_REG<0;4,1>:f
  126.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  127.     mov (2)  REG2(r, nTEMP12,  0)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  128.  
  129.   #if (ONE_ROW_DEBUG)
  130.     // write dp4 (raw float) of 2 pixel to the 4/5th row
  131.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+2)*64+CHANNEL   )<4>  REG2(r,nTEMP16,  0)<0;8,1>:ub
  132.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+2)*64+CHANNEL+32)<4>  REG2(r,nTEMP16,  8)<0;8,1>:ub
  133.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+3)*64+CHANNEL   )<4>  REG2(r,nTEMP16, 16)<0;8,1>:ub
  134.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+3)*64+CHANNEL+32)<4>  REG2(r,nTEMP16, 24)<0;8,1>:ub
  135.  
  136.     // write dp4 (convert float to ud first, write whole ud) of 2 pixel to the 6/7th row
  137.     mov (8)  REG2(r, nTEMP17,  0)<1>:d     REG2(r, nTEMP16, 0)<0;8,1>:f
  138.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+4)*64+CHANNEL   )<4>  REG2(r,nTEMP17,  0)<0;8,1>:ub
  139.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+4)*64+CHANNEL+32)<4>  REG2(r,nTEMP17,  8)<0;8,1>:ub
  140.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+5)*64+CHANNEL   )<4>  REG2(r,nTEMP17, 16)<0;8,1>:ub
  141.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+5)*64+CHANNEL+32)<4>  REG2(r,nTEMP17, 24)<0;8,1>:ub
  142.   #endif    
  143.  
  144.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(1, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  145.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  146.     mov (2)  REG2(r, nTEMP12,  2)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  147.    
  148.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(2, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  149.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  150.     mov (2)  REG2(r, nTEMP12,  4)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  151.    
  152.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(3, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  153.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  154.     mov (2)  REG2(r, nTEMP12,  6)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  155.    
  156.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(4, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  157.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  158.     mov (2)  REG2(r, nTEMP12,  8)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  159.    
  160.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(5, 0)<5;8,1>         fCOEF_REG<0;4,1>:f
  161.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  162.     mov (2)  REG2(r, nTEMP12, 10)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  163.    
  164.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(6, 0)<6;8,1>         fCOEF_REG<0;4,1>:f
  165.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  166.     mov (2)  REG2(r, nTEMP12, 12)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  167.    
  168.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(7, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  169.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  170.     mov (2)  REG2(r, nTEMP12, 14)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  171.  
  172.     // ####  write this channel
  173.     mov (8) ubDEST_RGBX(0,ROW_NUM_WRITE*64+CHANNEL   )<4>  REG2(r,nTEMP12, 0)<0;8,1>:ub
  174.     mov (8) ubDEST_RGBX(0,ROW_NUM_WRITE*64+CHANNEL+32)<4>  REG2(r,nTEMP12, 8)<0;8,1>:ub
  175.    
  176.         // ######## do one row for Green ########
  177.     #define fCOEF_REG  fYUV_to_RGB_CH1_Coef_Float  // reg for green coefficient
  178.     #define CHANNEL   1
  179.     // ##### dp4(nTEMP16) and save result to uw format(nTEMP12)
  180.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(0, 0)<0;8,1>   fCOEF_REG<0;4,1>:f
  181.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  182.     mov (2)  REG2(r, nTEMP12,  0)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  183.  
  184.   #if (ONE_ROW_DEBUG)
  185.     // write dp4 (raw float) of 2 pixel to the 4/5th row
  186.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+2)*64+CHANNEL   )<4>  REG2(r,nTEMP16,  0)<0;8,1>:ub
  187.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+2)*64+CHANNEL+32)<4>  REG2(r,nTEMP16,  8)<0;8,1>:ub
  188.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+3)*64+CHANNEL   )<4>  REG2(r,nTEMP16, 16)<0;8,1>:ub
  189.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+3)*64+CHANNEL+32)<4>  REG2(r,nTEMP16, 24)<0;8,1>:ub
  190.  
  191.     // write dp4 (convert float to ud first, write whole ud) of 2 pixel to the 6/7th row
  192.     mov (8)  REG2(r, nTEMP17,  0)<1>:d     REG2(r, nTEMP16, 0)<0;8,1>:f
  193.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+4)*64+CHANNEL   )<4>  REG2(r,nTEMP17,  0)<0;8,1>:ub
  194.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+4)*64+CHANNEL+32)<4>  REG2(r,nTEMP17,  8)<0;8,1>:ub
  195.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+5)*64+CHANNEL   )<4>  REG2(r,nTEMP17, 16)<0;8,1>:ub
  196.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+5)*64+CHANNEL+32)<4>  REG2(r,nTEMP17, 24)<0;8,1>:ub
  197.   #endif    
  198.  
  199.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(1, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  200.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  201.     mov (2)  REG2(r, nTEMP12,  2)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  202.    
  203.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(2, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  204.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  205.     mov (2)  REG2(r, nTEMP12,  4)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  206.    
  207.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(3, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  208.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  209.     mov (2)  REG2(r, nTEMP12,  6)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  210.    
  211.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(4, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  212.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  213.     mov (2)  REG2(r, nTEMP12,  8)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  214.    
  215.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(5, 0)<5;8,1>         fCOEF_REG<0;4,1>:f
  216.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  217.     mov (2)  REG2(r, nTEMP12, 10)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  218.    
  219.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(6, 0)<6;8,1>         fCOEF_REG<0;4,1>:f
  220.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  221.     mov (2)  REG2(r, nTEMP12, 12)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  222.    
  223.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(7, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  224.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  225.     mov (2)  REG2(r, nTEMP12, 14)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  226.  
  227.     // ####  write this channel
  228.     mov (8) ubDEST_RGBX(0,ROW_NUM_WRITE*64+CHANNEL   )<4>  REG2(r,nTEMP12, 0)<0;8,1>:ub
  229.     mov (8) ubDEST_RGBX(0,ROW_NUM_WRITE*64+CHANNEL+32)<4>  REG2(r,nTEMP12, 8)<0;8,1>:ub
  230.    
  231.     // ###### do one row for Blue channel
  232.     #define fCOEF_REG  fYUV_to_RGB_CH0_Coef_Float  // reg for Blue coefficient
  233.     #define CHANNEL   0
  234.     // ##### dp4(nTEMP16) and save result to uw format(nTEMP12)
  235.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(0, 0)<0;8,1>   fCOEF_REG<0;4,1>:f
  236.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  237.     mov (2)  REG2(r, nTEMP12,  0)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  238.  
  239.   #if (ONE_ROW_DEBUG)
  240.     // write dp4 (raw float) of 2 pixel to the 4/5th row
  241.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+2)*64+CHANNEL   )<4>  REG2(r,nTEMP16,  0)<0;8,1>:ub
  242.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+2)*64+CHANNEL+32)<4>  REG2(r,nTEMP16,  8)<0;8,1>:ub
  243.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+3)*64+CHANNEL   )<4>  REG2(r,nTEMP16, 16)<0;8,1>:ub
  244.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+3)*64+CHANNEL+32)<4>  REG2(r,nTEMP16, 24)<0;8,1>:ub
  245.  
  246.     // write dp4 (convert float to ud first, write whole ud) of 2 pixel to the 6/7th row
  247.     mov (8)  REG2(r, nTEMP17,  0)<1>:d     REG2(r, nTEMP16, 0)<0;8,1>:f
  248.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+4)*64+CHANNEL   )<4>  REG2(r,nTEMP17,  0)<0;8,1>:ub
  249.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+4)*64+CHANNEL+32)<4>  REG2(r,nTEMP17,  8)<0;8,1>:ub
  250.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+5)*64+CHANNEL   )<4>  REG2(r,nTEMP17, 16)<0;8,1>:ub
  251.     mov (8) ubDEST_RGBX(0,(DBG_ROWNUM_BASE+5)*64+CHANNEL+32)<4>  REG2(r,nTEMP17, 24)<0;8,1>:ub
  252.   #endif    
  253.  
  254.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(1, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  255.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  256.     mov (2)  REG2(r, nTEMP12,  2)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  257.    
  258.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(2, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  259.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  260.     mov (2)  REG2(r, nTEMP12,  4)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  261.    
  262.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(3, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  263.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  264.     mov (2)  REG2(r, nTEMP12,  6)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  265.    
  266.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(4, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  267.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  268.     mov (2)  REG2(r, nTEMP12,  8)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  269.    
  270.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(5, 0)<5;8,1>         fCOEF_REG<0;4,1>:f
  271.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  272.     mov (2)  REG2(r, nTEMP12, 10)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  273.    
  274.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(6, 0)<6;8,1>         fCOEF_REG<0;4,1>:f
  275.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  276.     mov (2)  REG2(r, nTEMP12, 12)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  277.    
  278.     dp4 (8)  REG2(r, nTEMP16,  0)<1>:f          fROW_YUVA(7, 0)<0;8,1>         fCOEF_REG<0;4,1>:f
  279.     mov.sat (2)  REG2(r, nTEMP14,  0)<1>:ud     REG2(r, nTEMP16, 0)<0;2,4>:f
  280.     mov (2)  REG2(r, nTEMP12, 14)<1>:ub         REG2(r, nTEMP14, 0)<0;2,4>:ub
  281.  
  282.     // ####  write this channel
  283.     mov (8) ubDEST_RGBX(0,ROW_NUM_WRITE*64+CHANNEL   )<4>  REG2(r,nTEMP12, 0)<0;8,1>:ub
  284.     mov (8) ubDEST_RGBX(0,ROW_NUM_WRITE*64+CHANNEL+32)<4>  REG2(r,nTEMP12, 8)<0;8,1>:ub
  285. #if (!ONE_ROW_DEBUG)
  286.     }
  287. #endif    
  288.