common/x86/ihevc_inter_pred_filters_ssse3_intr.c

/******************************************************************************
*
* Copyright (C) 2012 Ittiam Systems Pvt Ltd, Bangalore
*
* Licensed under the Apache License, Version 2.0 (the "License");
* you may not use this file except in compliance with the License.
* You may obtain a copy of the License at:
*
* http://www.apache.org/licenses/LICENSE-2.0
*
* Unless required by applicable law or agreed to in writing, software
* distributed under the License is distributed on an "AS IS" BASIS,
* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
* See the License for the specific language governing permissions and
* limitations under the License.
*
******************************************************************************/

/**
*******************************************************************************
* @file
*  ihevc_inter_pred_filters_atom_intr.c
*
* @brief
*  Contains function definitions for inter prediction  interpolation filters
*  coded in x86 intrinsics
*
*
* @author
*
*
* @par List of Functions:
*  - ihevc_inter_pred_luma_copy_ssse3()
*  - ihevc_inter_pred_luma_horz_ssse3()
*  - ihevc_inter_pred_luma_vert_ssse3()
*  - ihevc_inter_pred_luma_copy_w16out_ssse3()
*  - ihevc_inter_pred_luma_horz_w16out_ssse3()
*  - ihevc_inter_pred_luma_vert_w16out_ssse3()
*  - ihevc_inter_pred_luma_vert_w16inp_ssse3()
*  - ihevc_inter_pred_luma_vert_w16inp_w16out_ssse3()
*  - ihevc_inter_pred_chroma_copy_ssse3()
*  - ihevc_inter_pred_chroma_horz_ssse3()
*  - ihevc_inter_pred_chroma_vert_ssse3()
*  - ihevc_inter_pred_chroma_copy_w16out_ssse3()
*  - ihevc_inter_pred_chroma_horz_w16out_ssse3()
*  - ihevc_inter_pred_chroma_vert_w16out_ssse3()
*  - ihevc_inter_pred_chroma_vert_w16inp_ssse3()
*  - ihevc_inter_pred_chroma_vert_w16inp_w16out_ssse3()
*
* @remarks
*  None
*
*******************************************************************************
*/


/*****************************************************************************/
/* File Includes                                                             */
/*****************************************************************************/
#include <assert.h>

#include "ihevc_debug.h"
#include "ihevc_typedefs.h"
#include "ihevc_defs.h"
#include "ihevc_inter_pred.h"
#include "ihevc_platform_macros.h"
#include "ihevc_macros.h"
#include "ihevc_func_selector.h"

#include <immintrin.h>

/*****************************************************************************/
/* Function Definitions                                                      */
/*****************************************************************************/

/**
*******************************************************************************
*
* @brief
*       Interprediction luma function for copy
*
* @par Description:
*    Copies the array of width 'wd' and height 'ht' from the  location pointed
*    by 'src' to the location pointed by 'dst'
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
* Assumption : ht%4 == 0, wd%4 == 0
*
*******************************************************************************
*/


void ihevc_inter_pred_luma_copy_ssse3(UWORD8 *pu1_src,
                                      UWORD8 *pu1_dst,
                                      WORD32 src_strd,
                                      WORD32 dst_strd,
                                      WORD8 *pi1_coeff,
                                      WORD32 ht,
                                      WORD32 wd)
{

    WORD32 row, col;
    __m128i  src0_16x8b, src1_16x8b, src2_16x8b, src3_16x8b;
    UNUSED(pi1_coeff);
    ASSERT(wd % 4 == 0); /* checking assumption*/
    ASSERT(ht % 4 == 0); /* checking assumption*/

/*  outer for loop starts from here */
    if(0 == (wd & 15)) /* wd multiple of 16 case */
    {
        for(row = 0; row < ht; row += 4)
        {
            for(col = 0; col < wd; col += 16)
            {
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                src0_16x8b = _mm_loadu_si128((__m128i *)(pu1_src));                /* row =0 */
                src1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + 1 * src_strd)); /* row =1 */
                src2_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + 2 * src_strd)); /* row =2 */
                src3_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + 3 * src_strd)); /* row =3 */

                /* storing 16 8-bit output values */
                _mm_storeu_si128((__m128i *)(pu1_dst), src0_16x8b);                 /* row =0 */
                _mm_storeu_si128((__m128i *)(pu1_dst + 1 * dst_strd), src1_16x8b);  /* row =1 */
                _mm_storeu_si128((__m128i *)(pu1_dst + 2 * dst_strd), src2_16x8b);  /* row =2 */
                _mm_storeu_si128((__m128i *)(pu1_dst + 3 * dst_strd), src3_16x8b);  /* row =3 */

                pu1_src += 16; /* pointer update */
                pu1_dst += 16; /* pointer update */
            } /* inner for loop ends here(16-output values in single iteration) */

            pu1_src += 4 * src_strd - wd; /* pointer update */
            pu1_dst += 4 * dst_strd - wd; /* pointer update */
        }

    }
    else if(0 == (wd & 7)) /* multiple of 8 case */
    {
        for(row = 0; row < ht; row += 4)
        {
            for(col = 0; col < wd; col += 8)
            {
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                src0_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src));                /* row =0 */
                src1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + 1 * src_strd)); /* row =1 */
                src2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + 2 * src_strd)); /* row =2 */
                src3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + 3 * src_strd)); /* row =3 */

                /* storing 16 8-bit output values */
                _mm_storel_epi64((__m128i *)(pu1_dst), src0_16x8b);                 /* row =0 */
                _mm_storel_epi64((__m128i *)(pu1_dst + 1 * dst_strd), src1_16x8b);  /* row =1 */
                _mm_storel_epi64((__m128i *)(pu1_dst + 2 * dst_strd), src2_16x8b);  /* row =2 */
                _mm_storel_epi64((__m128i *)(pu1_dst + 3 * dst_strd), src3_16x8b);  /* row =3 */

                pu1_src += 8; /* pointer update */
                pu1_dst += 8; /* pointer update */
            } /*  inner for loop ends here(8-output values in single iteration) */

            pu1_src += 4 * src_strd - wd; /* pointer update */
            pu1_dst += 4 * dst_strd - wd; /* pointer update */
        }
    }
    else /* wd = multiple of 4 case */
    {
        WORD32 dst0, dst1, dst2, dst3;
        for(row = 0; row < ht; row += 4)
        {
            for(col = 0; col < wd; col += 4)
            {
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                src0_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src));                /* row =0 */
                src1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + 1 * src_strd)); /* row =1 */
                src2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + 2 * src_strd)); /* row =2 */
                src3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + 3 * src_strd)); /* row =3 */

                dst0 = _mm_cvtsi128_si32(src0_16x8b);
                dst1 = _mm_cvtsi128_si32(src1_16x8b);
                dst2 = _mm_cvtsi128_si32(src2_16x8b);
                dst3 = _mm_cvtsi128_si32(src3_16x8b);

                /* storing 4 8-bit output values */
                *(WORD32 *)(&pu1_dst[0 * dst_strd]) = dst0; /* row =0 */
                *(WORD32 *)(&pu1_dst[1 * dst_strd]) = dst1; /* row =1 */
                *(WORD32 *)(&pu1_dst[2 * dst_strd]) = dst2; /* row =2 */
                *(WORD32 *)(&pu1_dst[3 * dst_strd]) = dst3; /* row =3 */

                pu1_src += 4; /* pointer update */
                pu1_dst += 4; /* pointer update */
            } /*  inner for loop ends here(4- output values in single iteration) */

            pu1_src += 4 * src_strd - wd; /* pointer update */
            pu1_dst += 4 * dst_strd - wd; /* pointer update */
        }
    }
}

/* INTER_PRED_LUMA_COPY */

/**
*******************************************************************************
*
* @brief
*     Interprediction luma filter for horizontal input
*
* @par Description:
*    Applies a horizontal filter with coefficients pointed to  by 'pi1_coeff'
*    to the elements pointed by 'pu1_src' and  writes to the location pointed
*    by 'pu1_dst'  The output is downshifted by 6 and clipped to 8 bits
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_luma_horz_ssse3(UWORD8 *pu1_src,
                                      UWORD8 *pu1_dst,
                                      WORD32 src_strd,
                                      WORD32 dst_strd,
                                      WORD8 *pi1_coeff,
                                      WORD32 ht,
                                      WORD32 wd)
{
    WORD32 row, col;

    /* all 128 bit registers are named with a suffix mxnb, where m is the */
    /* number of n bits packed in the register                            */
    __m128i zero_8x16b, offset_8x16b, mask_low_32b, mask_high_96b;
    __m128i src_temp1_16x8b, src_temp2_16x8b, src_temp3_16x8b, src_temp4_16x8b, src_temp5_16x8b, src_temp6_16x8b;
    __m128i src_temp11_16x8b, src_temp12_16x8b, src_temp13_16x8b, src_temp14_16x8b, src_temp15_16x8b, src_temp16_16x8b;
    __m128i res_temp1_8x16b, res_temp2_8x16b, res_temp3_8x16b, res_temp4_8x16b, res_temp5_8x16b, res_temp6_8x16b, res_temp7_8x16b, res_temp8_8x16b;
    __m128i res_temp11_8x16b, res_temp12_8x16b, res_temp13_8x16b, res_temp14_8x16b, res_temp15_8x16b, res_temp16_8x16b, res_temp17_8x16b, res_temp18_8x16b;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b, coeff4_5_8x16b, coeff6_7_8x16b;
    __m128i control_mask_1_8x16b, control_mask_2_8x16b, control_mask_3_8x16b, control_mask_4_8x16b;

    ASSERT(wd % 4 == 0); /* checking assumption*/

    PREFETCH((char const *)(pu1_src + (0 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (1 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (2 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (3 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)

    /* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    src_temp1_16x8b = _mm_loadl_epi64((__m128i *)pi1_coeff);
    zero_8x16b = _mm_set1_epi32(0);
    offset_8x16b = _mm_set1_epi16(OFFSET_14_MINUS_BIT_DEPTH); /* for offset addition */

    mask_low_32b = _mm_cmpeq_epi16(zero_8x16b, zero_8x16b);
    mask_high_96b = _mm_srli_si128(mask_low_32b, 12);
    mask_low_32b = _mm_slli_si128(mask_low_32b, 4);

    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */
    control_mask_3_8x16b = _mm_set1_epi32(0x05040504); /* Control Mask register */
    control_mask_4_8x16b = _mm_set1_epi32(0x07060706); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_2_8x16b);  /* pi1_coeff[4] */

    coeff4_5_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_3_8x16b);  /* pi1_coeff[4] */
    coeff6_7_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_4_8x16b);  /* pi1_coeff[4] */

    if(0 == (ht & 1)) /* ht multiple of 2 case */
    {

        if(0 == (wd & 7)) /* wd = multiple of 8 case */
        {
            for(row = 0; row < ht; row += 2)
            {

                int offset = 0;

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 8)
                {
                    /*load 16 pixel values from row 0*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));         /* row = 0 */

                    /*load 16 pixel values from row 1*/
                    src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + src_strd - 3 + offset)); /* row = 1 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                                                                                           /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    res_temp6_8x16b = _mm_adds_epi16(res_temp5_8x16b, offset_8x16b);             /* row = 0 */
                    res_temp6_8x16b = _mm_srai_epi16(res_temp6_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                    res_temp5_8x16b = _mm_packus_epi16(res_temp6_8x16b, res_temp6_8x16b);        /* row = 0 */

                    _mm_storel_epi64((__m128i *)(pu1_dst + offset), res_temp5_8x16b);

                    src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 1);                   /* row =1 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/                 /* row =1 */
                    src_temp13_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp11_8x16b = _mm_maddubs_epi16(src_temp13_16x8b, coeff0_1_8x16b);   /* row = 1 */
                                                                                              /* row = 1 */
                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row =1 */
                    src_temp14_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp12_8x16b = _mm_maddubs_epi16(src_temp14_16x8b, coeff2_3_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row =1 */
                    src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp13_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff4_5_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row =1 */
                    src_temp16_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp14_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff6_7_8x16b);   /* row = 1 */

                    res_temp15_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);
                    res_temp16_8x16b = _mm_add_epi16(res_temp13_8x16b, res_temp14_8x16b);
                    res_temp15_8x16b = _mm_add_epi16(res_temp15_8x16b, res_temp16_8x16b);

                    res_temp16_8x16b = _mm_adds_epi16(res_temp15_8x16b, offset_8x16b);             /* row = 1 */
                    res_temp16_8x16b = _mm_srai_epi16(res_temp16_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 1 */
                    res_temp15_8x16b = _mm_packus_epi16(res_temp16_8x16b, res_temp16_8x16b);       /* row = 1 */

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd + offset), res_temp15_8x16b);

                    offset += 8; /* To pointer updates*/
                }
                pu1_src += 2 * src_strd;  /* pointer updates*/
                pu1_dst += 2 * dst_strd;  /* pointer updates*/
            }
        }
        else /* wd = multiple of 4 case */
        {
            for(row = 0; row < ht; row += 2)
            {
                int offset = 0;

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 4)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));             /* row = 0 */
                    src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + src_strd - 3 + offset)); /* row = 1 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                                                                                           /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    res_temp6_8x16b = _mm_adds_epi16(res_temp5_8x16b, offset_8x16b);             /* row = 0 */
                    res_temp6_8x16b = _mm_srai_epi16(res_temp6_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                    res_temp5_8x16b = _mm_packus_epi16(res_temp6_8x16b, res_temp6_8x16b);        /* row = 0 */

                    res_temp7_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + offset));
                    res_temp8_8x16b =  _mm_and_si128(res_temp7_8x16b, mask_low_32b);
                    res_temp7_8x16b =  _mm_and_si128(res_temp5_8x16b, mask_high_96b);
                    res_temp5_8x16b = _mm_or_si128(res_temp7_8x16b, res_temp8_8x16b);

                    _mm_storel_epi64((__m128i *)(pu1_dst + offset), res_temp5_8x16b);

                    src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 1);                   /* row = 1 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/                 /* row = 1 */
                    src_temp13_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp11_8x16b = _mm_maddubs_epi16(src_temp13_16x8b, coeff0_1_8x16b);   /* row = 1 */
                                                                                              /* row = 1 */
                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp14_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp12_8x16b = _mm_maddubs_epi16(src_temp14_16x8b, coeff2_3_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp13_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff4_5_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp16_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp14_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff6_7_8x16b);   /* row = 1 */

                    res_temp15_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);
                    res_temp16_8x16b = _mm_add_epi16(res_temp13_8x16b, res_temp14_8x16b);
                    res_temp15_8x16b = _mm_add_epi16(res_temp15_8x16b, res_temp16_8x16b);

                    res_temp16_8x16b = _mm_adds_epi16(res_temp15_8x16b, offset_8x16b);             /* row = 1 */
                    res_temp16_8x16b = _mm_srai_epi16(res_temp16_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 1 */
                    res_temp15_8x16b = _mm_packus_epi16(res_temp16_8x16b, res_temp16_8x16b);       /* row = 1 */

                    res_temp17_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd + offset));
                    res_temp18_8x16b =  _mm_and_si128(res_temp17_8x16b, mask_low_32b);
                    res_temp17_8x16b =  _mm_and_si128(res_temp15_8x16b, mask_high_96b);
                    res_temp15_8x16b = _mm_or_si128(res_temp17_8x16b, res_temp18_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd + offset), res_temp15_8x16b);

                    offset += 4; /* To pointer updates*/
                }
                pu1_src += 2 * src_strd;  /* Pointer update */
                pu1_dst += 2 * dst_strd;  /* Pointer update */
            }
        }
    }
    else /* odd ht */
    {
        if(0 == (wd & 7)) /* multiple of 8 case */
        {
            for(row = 0; row < ht; row++)
            {
                int offset = 0;


                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 8)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));  /* row = 0 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                                                                                           /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    res_temp6_8x16b = _mm_adds_epi16(res_temp5_8x16b, offset_8x16b);             /* row = 0 */
                    res_temp6_8x16b = _mm_srai_epi16(res_temp6_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                    res_temp5_8x16b = _mm_packus_epi16(res_temp6_8x16b, res_temp6_8x16b);        /* row = 0 */

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pu1_dst + offset), res_temp5_8x16b);

                    offset += 8; /* To pointer updates*/
                }
                pu1_src += src_strd;    /* pointer updates*/
                pu1_dst += dst_strd;    /* pointer updates*/
            }
        }
        else  /* wd = multiple of 4 case */
        {
            for(row = 0; row < (ht - 1); row += 2)
            {
                int offset = 0;

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 4)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));             /* row = 0 */
                    src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + src_strd - 3 + offset)); /* row = 1 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                                                                                           /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    res_temp6_8x16b = _mm_adds_epi16(res_temp5_8x16b, offset_8x16b);             /* row = 0 */
                    res_temp6_8x16b = _mm_srai_epi16(res_temp6_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                    res_temp5_8x16b = _mm_packus_epi16(res_temp6_8x16b, res_temp6_8x16b);        /* row = 0 */

                    res_temp7_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + offset));
                    res_temp8_8x16b =  _mm_and_si128(res_temp7_8x16b, mask_low_32b);
                    res_temp7_8x16b =  _mm_and_si128(res_temp5_8x16b, mask_high_96b);
                    res_temp5_8x16b = _mm_or_si128(res_temp7_8x16b, res_temp8_8x16b);

                    _mm_storel_epi64((__m128i *)(pu1_dst + offset), res_temp5_8x16b);

                    src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 1);                   /* row = 1 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/                 /* row = 1 */
                    src_temp13_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp11_8x16b = _mm_maddubs_epi16(src_temp13_16x8b, coeff0_1_8x16b);   /* row = 1 */
                                                                                              /* row = 1 */
                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp14_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp12_8x16b = _mm_maddubs_epi16(src_temp14_16x8b, coeff2_3_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp13_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff4_5_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp16_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp14_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff6_7_8x16b);   /* row = 1 */

                    res_temp15_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);
                    res_temp16_8x16b = _mm_add_epi16(res_temp13_8x16b, res_temp14_8x16b);
                    res_temp15_8x16b = _mm_add_epi16(res_temp15_8x16b, res_temp16_8x16b);

                    res_temp16_8x16b = _mm_adds_epi16(res_temp15_8x16b, offset_8x16b);             /* row = 1 */
                    res_temp16_8x16b = _mm_srai_epi16(res_temp16_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 1 */
                    res_temp15_8x16b = _mm_packus_epi16(res_temp16_8x16b, res_temp16_8x16b);       /* row = 1 */

                    res_temp17_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd + offset));
                    res_temp18_8x16b =  _mm_and_si128(res_temp17_8x16b, mask_low_32b);
                    res_temp17_8x16b =  _mm_and_si128(res_temp15_8x16b, mask_high_96b);
                    res_temp15_8x16b = _mm_or_si128(res_temp17_8x16b, res_temp18_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd + offset), res_temp15_8x16b);

                    offset += 4; /* To pointer updates*/
                }
                pu1_src += 2 * src_strd;  /* Pointer update */
                pu1_dst += 2 * dst_strd;  /* Pointer update */
            }
            { /* last repeat at outside the loop */
                int offset = 0;
                for(col = 0; col < wd; col += 4)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));  /* row = 0 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                                                                                           /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    res_temp6_8x16b = _mm_adds_epi16(res_temp5_8x16b, offset_8x16b);             /* row = 0 */
                    res_temp6_8x16b = _mm_srai_epi16(res_temp6_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                    res_temp5_8x16b = _mm_packus_epi16(res_temp6_8x16b, res_temp6_8x16b);        /* row = 0 */

                    res_temp7_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + offset));
                    res_temp8_8x16b =  _mm_and_si128(res_temp7_8x16b, mask_low_32b);
                    res_temp7_8x16b =  _mm_and_si128(res_temp5_8x16b, mask_high_96b);
                    res_temp5_8x16b = _mm_or_si128(res_temp7_8x16b, res_temp8_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pu1_dst + offset), res_temp5_8x16b);

                    offset += 4; /* To pointer updates*/
                }
            }
        }
    }
}


/**
*******************************************************************************
*
* @brief
*    Interprediction luma filter for vertical input
*
* @par Description:
*   Applies a vertcal filter with coefficients pointed to  by 'pi1_coeff' to
*   the elements pointed by 'pu1_src' and  writes to the location pointed by
*   'pu1_dst'  The output is downshifted by 6 and clipped to 8 bits
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_luma_vert_ssse3(UWORD8 *pu1_src,
                                      UWORD8 *pu1_dst,
                                      WORD32 src_strd,
                                      WORD32 dst_strd,
                                      WORD8 *pi1_coeff,
                                      WORD32 ht,
                                      WORD32 wd)
{
    WORD32 row, col;
    UWORD8 *pu1_src_copy;
    UWORD8 *pu1_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b, coeff4_5_8x16b, coeff6_7_8x16b;
    __m128i s0_8x16b, s1_8x16b, s2_8x16b, s3_8x16b, s4_8x16b, s5_8x16b, s6_8x16b, s7_8x16b, s8_8x16b, s9_8x16b;
    __m128i s2_0_16x8b, s2_1_16x8b, s2_2_16x8b, s2_3_16x8b, s2_4_16x8b, s2_5_16x8b, s2_6_16x8b, s2_7_16x8b, s2_8_16x8b, s2_9_16x8b, s2_10_16x8b;
    __m128i s3_0_16x8b, s3_1_16x8b, s3_2_16x8b, s3_3_16x8b, s3_4_16x8b;
    __m128i s4_0_16x8b, s4_1_16x8b, s4_2_16x8b, s4_3_16x8b, s4_4_16x8b;
    __m128i s10_8x16b, s11_8x16b, s12_8x16b, s13_8x16b, s14_8x16b, s15_8x16b, s16_8x16b, s17_8x16b, s18_8x16b, s19_8x16b;
    __m128i s20_8x16b, s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b, s26_8x16b, s27_8x16b, s28_8x16b, s29_8x16b;
    __m128i s30_8x16b, s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b, s36_8x16b, s37_8x16b, s38_8x16b, s39_8x16b;

    __m128i zero_8x16b, offset_8x16b, mask_low_32b, mask_high_96b;
    __m128i control_mask_1_8x16b, control_mask_2_8x16b, control_mask_3_8x16b, control_mask_4_8x16b;

    PREFETCH((char const *)(pu1_src + (0 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (1 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (2 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (3 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)

/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */
    control_mask_3_8x16b = _mm_set1_epi32(0x05040504); /* Control Mask register */
    control_mask_4_8x16b = _mm_set1_epi32(0x07060706); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_2_8x16b);  /* pi1_coeff[4] */

    coeff4_5_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_3_8x16b);  /* pi1_coeff[4] */
    coeff6_7_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_4_8x16b);  /* pi1_coeff[4] */

/*  seting  values in register */
    zero_8x16b = _mm_setzero_si128(); /* for saturated clipping */
    offset_8x16b = _mm_set1_epi16(OFFSET_14_MINUS_BIT_DEPTH); /* for offset addition */
    mask_low_32b = _mm_set_epi32(0xFFFFFFFF, 0xFFFFFFFF, 0xFFFFFFFF, 0x00000000);
    mask_high_96b = _mm_set_epi32(0x00000000, 0x00000000, 0x00000000, 0xFFFFFFFF);

/*  outer for loop starts from here */
    if(wd % 8 == 0)
    { /* wd = multiple of 8 case */

        pu1_src_copy = pu1_src;
        pu1_dst_copy = pu1_dst;

        for(col = 0; col < wd; col += 8)
        {

            pu1_src = pu1_src_copy + col;
            pu1_dst = pu1_dst_copy + col;

            PREFETCH((char const *)(pu1_src + (8 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (9 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (10 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (11 * src_strd)), _MM_HINT_T0)

            /*load 8 pixel values.*/
            s2_0_16x8b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-3 * src_strd)));

            /*load 8 pixel values*/
            s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-2 * src_strd)));

            s3_0_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);

            s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);

            /*load 8 pixel values*/
            s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

            /*load 8 pixel values*/
            s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

            s3_1_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

            s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);

            /*load 8 pixel values*/
            s2_4_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

            /*load 8 pixel values*/
            s2_5_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

            s3_2_16x8b = _mm_unpacklo_epi8(s2_4_16x8b, s2_5_16x8b);

            s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values*/
            s2_6_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

            /*load 8 pixel values*/
            s2_7_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (4 * src_strd)));

            s3_3_16x8b = _mm_unpacklo_epi8(s2_6_16x8b, s2_7_16x8b);

            s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

            s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
            s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
            s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

            s7_8x16b = _mm_add_epi16(s6_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s8_8x16b = _mm_srai_epi16(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s9_8x16b = _mm_packus_epi16(s8_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 0*/
            _mm_storel_epi64((__m128i *)(pu1_dst), s9_8x16b);

            /* ROW 2*/
            s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
            s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
            s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values*/
            s2_8_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (5 * src_strd)));

            /*load 8 pixel values*/
            s2_9_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (6 * src_strd)));

            s3_4_16x8b = _mm_unpacklo_epi8(s2_8_16x8b, s2_9_16x8b);

            s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

            s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
            s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
            s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

            s27_8x16b = _mm_add_epi16(s26_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s28_8x16b = _mm_srai_epi16(s27_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s29_8x16b = _mm_packus_epi16(s28_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (2 * dst_strd)), s29_8x16b);


            /*ROW 1*/
            s4_0_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

            s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);

            s4_1_16x8b = _mm_unpacklo_epi8(s2_3_16x8b, s2_4_16x8b);

            s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);

            s4_2_16x8b = _mm_unpacklo_epi8(s2_5_16x8b, s2_6_16x8b);

            s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

            s4_3_16x8b = _mm_unpacklo_epi8(s2_7_16x8b, s2_8_16x8b);

            s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

            s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
            s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
            s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);

            s17_8x16b = _mm_add_epi16(s16_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s18_8x16b = _mm_srai_epi16(s17_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s19_8x16b = _mm_packus_epi16(s18_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 1*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (dst_strd)), s19_8x16b);


            /* ROW 3*/
            s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
            s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
            s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values*/
            s2_10_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (7 * src_strd)));

            s4_4_16x8b = _mm_unpacklo_epi8(s2_9_16x8b, s2_10_16x8b);

            s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

            s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
            s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
            s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);

            s37_8x16b = _mm_add_epi16(s36_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s38_8x16b = _mm_srai_epi16(s37_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s39_8x16b = _mm_packus_epi16(s38_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (3 * dst_strd)), s39_8x16b);

            pu1_src += (8 * src_strd);
            pu1_dst += (4 * dst_strd);

            for(row = 4; row < ht; row += 4)
            {
                PREFETCH((char const *)(pu1_src + (8 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (9 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (10 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (11 * src_strd)), _MM_HINT_T0)


                s3_0_16x8b = s3_2_16x8b;
                s3_1_16x8b = s3_3_16x8b;
                s3_2_16x8b = s3_4_16x8b;

                s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);
                s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);
                s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 4)th row*/
                s2_0_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src));

                s3_3_16x8b = _mm_unpacklo_epi8(s2_10_16x8b, s2_0_16x8b);
                s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

                s4_0_16x8b = s4_2_16x8b;
                s4_1_16x8b = s4_3_16x8b;
                s4_2_16x8b = s4_4_16x8b;

                s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
                s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
                s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

                s7_8x16b = _mm_add_epi16(s6_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s8_8x16b = _mm_srai_epi16(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s9_8x16b = _mm_packus_epi16(s8_8x16b, zero_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of row 4*/
                _mm_storel_epi64((__m128i *)(pu1_dst), s9_8x16b);

                /* row + 2*/
                s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
                s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
                s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 5)th row*/
                s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + src_strd));

                /*load 8 pixel values from (cur_row + 6)th row*/
                s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                /*unpacking (cur_row + 5)th row and (cur_row + 6)th row*/
                s3_4_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

                s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

                s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
                s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
                s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

                s27_8x16b = _mm_add_epi16(s26_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s28_8x16b = _mm_srai_epi16(s27_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s29_8x16b = _mm_packus_epi16(s28_8x16b, zero_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+2)*/
                _mm_storel_epi64((__m128i *)(pu1_dst + (2 * dst_strd)), s29_8x16b);


                /*row + 1*/
                s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);
                s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);
                s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

                /*unpacking (cur_row + 4)th row and (cur_row + 5)th row*/
                s4_3_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);
                s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

                s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
                s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
                s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);

                s17_8x16b = _mm_add_epi16(s16_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s18_8x16b = _mm_srai_epi16(s17_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s19_8x16b = _mm_packus_epi16(s18_8x16b, zero_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row + 1)*/
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd), s19_8x16b);


                /* row + 3*/
                s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
                s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
                s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 7)th row*/
                s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                /*unpacking (cur_row + 6)th row and (cur_row + 7)th row*/
                s4_4_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

                s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

                s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
                s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
                s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);

                s37_8x16b = _mm_add_epi16(s36_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s38_8x16b = _mm_srai_epi16(s37_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s39_8x16b = _mm_packus_epi16(s38_8x16b, zero_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+3)*/
                _mm_storel_epi64((__m128i *)(pu1_dst + (3 * dst_strd)), s39_8x16b);

                s2_10_16x8b = s2_3_16x8b;

                pu1_src += 4 * src_strd; /* pointer update */
                pu1_dst += 4 * dst_strd; /* pointer update */
            }
        }
    }
    else /* wd = multiple of 8 case */
    {

        pu1_src_copy = pu1_src;
        pu1_dst_copy = pu1_dst;

        for(col = 0; col < wd; col += 4)
        {

            pu1_src = pu1_src_copy + col;
            pu1_dst = pu1_dst_copy + col;

            PREFETCH((char const *)(pu1_src + (8 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (9 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (10 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (11 * src_strd)), _MM_HINT_T0)


            /*load 8 pixel values */
            s2_0_16x8b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-3 * src_strd)));

            /*load 8 pixel values */
            s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-2 * src_strd)));

            s3_0_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);

            s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);

            /*load 8 pixel values */
            s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

            /*load 8 pixel values */
            s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

            s3_1_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

            s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);

            /*load 8 pixel values */
            s2_4_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

            /*load 8 pixel values */
            s2_5_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

            s3_2_16x8b = _mm_unpacklo_epi8(s2_4_16x8b, s2_5_16x8b);

            s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_6_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

            /*load 8 pixel values */
            s2_7_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (4 * src_strd)));

            s3_3_16x8b = _mm_unpacklo_epi8(s2_6_16x8b, s2_7_16x8b);

            s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

            s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
            s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
            s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

            s7_8x16b = _mm_add_epi16(s6_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s8_8x16b = _mm_srai_epi16(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s9_8x16b = _mm_packus_epi16(s8_8x16b, zero_8x16b);
            s5_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst));
            s6_8x16b =  _mm_and_si128(s5_8x16b, mask_low_32b);
            s7_8x16b =  _mm_and_si128(s9_8x16b, mask_high_96b);
            s8_8x16b = _mm_or_si128(s6_8x16b, s7_8x16b);
            /* store 8 8-bit output values  */
            /* Store the output pixels of row 0*/
            _mm_storel_epi64((__m128i *)(pu1_dst), s8_8x16b);

            /* ROW 2*/
            s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
            s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
            s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_8_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (5 * src_strd)));

            /*load 8 pixel values */
            s2_9_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (6 * src_strd)));

            s3_4_16x8b = _mm_unpacklo_epi8(s2_8_16x8b, s2_9_16x8b);

            s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

            s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
            s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
            s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

            s27_8x16b = _mm_add_epi16(s26_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s28_8x16b = _mm_srai_epi16(s27_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s29_8x16b = _mm_packus_epi16(s28_8x16b, zero_8x16b);
            s25_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (2 * dst_strd)));
            s26_8x16b =  _mm_and_si128(s25_8x16b, mask_low_32b);
            s27_8x16b =  _mm_and_si128(s29_8x16b, mask_high_96b);
            s28_8x16b = _mm_or_si128(s26_8x16b, s27_8x16b);
            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (2 * dst_strd)), s28_8x16b);


            /*ROW 1*/
            s4_0_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

            s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);

            s4_1_16x8b = _mm_unpacklo_epi8(s2_3_16x8b, s2_4_16x8b);

            s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);

            s4_2_16x8b = _mm_unpacklo_epi8(s2_5_16x8b, s2_6_16x8b);

            s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

            s4_3_16x8b = _mm_unpacklo_epi8(s2_7_16x8b, s2_8_16x8b);

            s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

            s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
            s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
            s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);

            s17_8x16b = _mm_add_epi16(s16_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s18_8x16b = _mm_srai_epi16(s17_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s19_8x16b = _mm_packus_epi16(s18_8x16b, zero_8x16b);
            s15_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd));
            s16_8x16b =  _mm_and_si128(s15_8x16b, mask_low_32b);
            s17_8x16b =  _mm_and_si128(s19_8x16b, mask_high_96b);
            s18_8x16b = _mm_or_si128(s16_8x16b, s17_8x16b);
            /* store 8 8-bit output values  */
            /* Store the output pixels of row 1*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (dst_strd)), s18_8x16b);


            /* ROW 3*/
            s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
            s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
            s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_10_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (7 * src_strd)));

            s4_4_16x8b = _mm_unpacklo_epi8(s2_9_16x8b, s2_10_16x8b);

            s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

            s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
            s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
            s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);

            s37_8x16b = _mm_add_epi16(s36_8x16b, offset_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s38_8x16b = _mm_srai_epi16(s37_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s39_8x16b = _mm_packus_epi16(s38_8x16b, zero_8x16b);

            s35_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (3 * dst_strd)));
            s36_8x16b =  _mm_and_si128(s35_8x16b, mask_low_32b);
            s37_8x16b =  _mm_and_si128(s39_8x16b, mask_high_96b);
            s38_8x16b = _mm_or_si128(s36_8x16b, s37_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (3 * dst_strd)), s38_8x16b);

            pu1_src += (8 * src_strd);
            pu1_dst += (4 * dst_strd);

            for(row = 4; row < ht; row += 4)
            {

                PREFETCH((char const *)(pu1_src + (8 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (9 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (10 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (11 * src_strd)), _MM_HINT_T0)


                s3_0_16x8b = s3_2_16x8b;
                s3_1_16x8b = s3_3_16x8b;
                s3_2_16x8b = s3_4_16x8b;

                s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);
                s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);
                s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

                /*load 16 pixel values from (cur_row + 4)th row*/
                s2_0_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src));

                s3_3_16x8b = _mm_unpacklo_epi8(s2_10_16x8b, s2_0_16x8b);
                s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

                s4_0_16x8b = s4_2_16x8b;
                s4_1_16x8b = s4_3_16x8b;
                s4_2_16x8b = s4_4_16x8b;

                s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
                s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
                s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

                s7_8x16b = _mm_add_epi16(s6_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s8_8x16b = _mm_srai_epi16(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s9_8x16b = _mm_packus_epi16(s8_8x16b, zero_8x16b);

                s5_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst));
                s6_8x16b =  _mm_and_si128(s5_8x16b, mask_low_32b);
                s7_8x16b =  _mm_and_si128(s9_8x16b, mask_high_96b);
                s8_8x16b = _mm_or_si128(s6_8x16b, s7_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of row 4*/
                _mm_storel_epi64((__m128i *)(pu1_dst), s8_8x16b);

                /* row + 2*/
                s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
                s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
                s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

                /*load 16 pixel values from (cur_row + 5)th row*/
                s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + src_strd));

                /*load 16 pixel values from (cur_row + 6)th row*/
                s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                /*unpacking (cur_row + 5)th row and (cur_row + 6)th row*/
                s3_4_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

                s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

                s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
                s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
                s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

                s27_8x16b = _mm_add_epi16(s26_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s28_8x16b = _mm_srai_epi16(s27_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s29_8x16b = _mm_packus_epi16(s28_8x16b, zero_8x16b);

                s25_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (2 * dst_strd)));
                s26_8x16b =  _mm_and_si128(s25_8x16b, mask_low_32b);
                s27_8x16b =  _mm_and_si128(s29_8x16b, mask_high_96b);
                s28_8x16b = _mm_or_si128(s26_8x16b, s27_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+2)*/
                _mm_storel_epi64((__m128i *)(pu1_dst + (2 * dst_strd)), s28_8x16b);


                /*row + 1*/
                s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);
                s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);
                s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

                /*unpacking (cur_row + 4)th row and (cur_row + 5)th row*/
                s4_3_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);
                s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

                s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
                s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
                s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);

                s17_8x16b = _mm_add_epi16(s16_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s18_8x16b = _mm_srai_epi16(s17_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s19_8x16b = _mm_packus_epi16(s18_8x16b, zero_8x16b);

                s15_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd));
                s16_8x16b =  _mm_and_si128(s15_8x16b, mask_low_32b);
                s17_8x16b =  _mm_and_si128(s19_8x16b, mask_high_96b);
                s18_8x16b = _mm_or_si128(s16_8x16b, s17_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row + 1)*/
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd), s18_8x16b);


                /* row + 3*/
                s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
                s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
                s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

                /*load 16 pixel values from (cur_row + 7)th row*/
                s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                /*unpacking (cur_row + 6)th row and (cur_row + 7)th row*/
                s4_4_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

                s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

                s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
                s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
                s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);

                s37_8x16b = _mm_add_epi16(s36_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s38_8x16b = _mm_srai_epi16(s37_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s39_8x16b = _mm_packus_epi16(s38_8x16b, zero_8x16b);

                s35_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (3 * dst_strd)));
                s36_8x16b =  _mm_and_si128(s35_8x16b, mask_low_32b);
                s37_8x16b =  _mm_and_si128(s39_8x16b, mask_high_96b);
                s38_8x16b = _mm_or_si128(s36_8x16b, s37_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+3)*/
                _mm_storel_epi64((__m128i *)(pu1_dst + (3 * dst_strd)), s38_8x16b);

                s2_10_16x8b = s2_3_16x8b;

                pu1_src += 4 * src_strd; /* pointer update */
                pu1_dst += 4 * dst_strd; /* pointer update */
            }
        }
    }
}


/**
*******************************************************************************
*
* @brief
*       Interprediction luma filter for copy 16bit output
*
* @par Description:
*    Copies the array of width 'wd' and height 'ht' from the  location pointed
*    by 'src' to the location pointed by 'dst' The output is upshifted by 6
*    bits and is used as input for vertical filtering or weighted prediction
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/

void ihevc_inter_pred_luma_copy_w16out_ssse3(UWORD8 *pu1_src,
                                             WORD16 *pi2_dst,
                                             WORD32 src_strd,
                                             WORD32 dst_strd,
                                             WORD8 *pi1_coeff,
                                             WORD32 ht,
                                             WORD32 wd)
{
    WORD32 row, col;
    __m128i  s3, zero_8x16b;

    ASSERT(wd % 2 == 0); /* checking assumption*/
    ASSERT(ht % 2 == 0); /* checking assumption*/
    UNUSED(pi1_coeff);
    zero_8x16b = _mm_setzero_si128();
/*  outer for loop starts from here */
    if(wd % 8 == 0) /* wd = multiple of 8 case */
    {
        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;
            for(col = 0; col < wd; col += 8)
            {
/* row =0 */
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col] */
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH */

                /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH); */
                _mm_store_si128((__m128i *)(pi2_dst + offset), s3);

/* row =1 */
                /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset)); /* pu1_src[col] */
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH */

                /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH); */
                _mm_store_si128((__m128i *)(pi2_dst + dst_strd + offset), s3);

                offset += 8; /* To pointer update */
            } /* inner for loop ends here(8-output values in single iteration) */

            pu1_src += 2 * src_strd; /* pointer update */
            pi2_dst += 2 * dst_strd; /* pointer update */
        }
    }
    else /* wd = multiple of 4 case */
    {
        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;
            for(col = 0; col < wd; col += 4)
            {
/* row =0 */
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col] */
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH */

                /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH); */
                _mm_storel_epi64((__m128i *)(pi2_dst + offset), s3);

/* row =1 */
                /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset)); /* pu1_src[col] */
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH */

                /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH); */
                _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd + offset), s3);
                offset += 4; /* To pointer update */
            } /* inner for loop ends here(4-output values in single iteration) */

            pu1_src += 2 * src_strd; /* pointer update */
            pi2_dst += 2 * dst_strd; /* pointer update */
        }
    }

}

/**
*******************************************************************************
*
* @brief
*     Interprediction luma filter for horizontal 16bit output
*
* @par Description:
*    Applies a horizontal filter with coefficients pointed to  by 'pi1_coeff'
*    to the elements pointed by 'pu1_src' and  writes to the location pointed
*    by 'pu1_dst'  No downshifting or clipping is done and the output is  used
*    as an input for vertical filtering or weighted  prediction
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_luma_horz_w16out_ssse3(UWORD8 *pu1_src,
                                             WORD16 *pi2_dst,
                                             WORD32 src_strd,
                                             WORD32 dst_strd,
                                             WORD8 *pi1_coeff,
                                             WORD32 ht,
                                             WORD32 wd)
{
    WORD32 row, col;

    /* all 128 bit registers are named with a suffix mxnb, where m is the */
    /* number of n bits packed in the register                            */

    __m128i src_temp1_16x8b, src_temp2_16x8b, src_temp3_16x8b, src_temp4_16x8b, src_temp5_16x8b, src_temp6_16x8b;
    __m128i src_temp11_16x8b, src_temp12_16x8b, src_temp13_16x8b, src_temp14_16x8b, src_temp15_16x8b, src_temp16_16x8b;
    __m128i res_temp1_8x16b, res_temp2_8x16b, res_temp3_8x16b, res_temp4_8x16b, res_temp5_8x16b, res_temp6_8x16b;
    __m128i res_temp11_8x16b, res_temp12_8x16b, res_temp13_8x16b, res_temp14_8x16b, res_temp15_8x16b, res_temp16_8x16b;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b, coeff4_5_8x16b, coeff6_7_8x16b;
    __m128i control_mask_1_8x16b, control_mask_2_8x16b, control_mask_3_8x16b, control_mask_4_8x16b;

    ASSERT(wd % 4 == 0); /* checking assumption*/

    PREFETCH((char const *)(pu1_src + (0 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (1 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (2 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (3 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)

    /* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    src_temp1_16x8b = _mm_loadl_epi64((__m128i *)pi1_coeff);


    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */
    control_mask_3_8x16b = _mm_set1_epi32(0x05040504); /* Control Mask register */
    control_mask_4_8x16b = _mm_set1_epi32(0x07060706); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_2_8x16b);  /* pi1_coeff[4] */

    coeff4_5_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_3_8x16b);  /* pi1_coeff[4] */
    coeff6_7_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_4_8x16b);  /* pi1_coeff[4] */

    if(0 == (ht & 1)) /* ht multiple of 2 case */
    {

        if(0 == (wd & 7)) /* wd = multiple of 8 case */
        {
            for(row = 0; row < ht; row += 2)
            {

                int offset = 0;

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 8)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));             /* row = 0 */
                    src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + src_strd - 3 + offset)); /* row = 1 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                    /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 1);                   /* row = 1 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/                 /* row = 1 */
                    src_temp13_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp11_8x16b = _mm_maddubs_epi16(src_temp13_16x8b, coeff0_1_8x16b);   /* row = 1 */
                                                                                              /* row = 1 */
                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp14_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp12_8x16b = _mm_maddubs_epi16(src_temp14_16x8b, coeff2_3_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp13_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff4_5_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp16_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp14_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff6_7_8x16b);   /* row = 1 */

                    res_temp15_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);
                    res_temp16_8x16b = _mm_add_epi16(res_temp13_8x16b, res_temp14_8x16b);
                    res_temp15_8x16b = _mm_add_epi16(res_temp15_8x16b, res_temp16_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_store_si128((__m128i *)(pi2_dst + offset), res_temp5_8x16b);
                    _mm_store_si128((__m128i *)(pi2_dst + dst_strd + offset), res_temp15_8x16b);

                    offset += 8; /* To pointer updates*/
                }
                pu1_src += 2 * src_strd;  /* pointer updates*/
                pi2_dst += 2 * dst_strd;  /* pointer updates*/
            }
        }
        else /* wd = multiple of 4 case */
        {
            for(row = 0; row < ht; row += 2)
            {
                int offset = 0;

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 4)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));             /* row = 0 */
                    src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + src_strd - 3 + offset)); /* row = 1 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                    /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 1);                   /* row = 1 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/                 /* row = 1 */
                    src_temp13_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp11_8x16b = _mm_maddubs_epi16(src_temp13_16x8b, coeff0_1_8x16b);   /* row = 1 */
                                                                                              /* row = 1 */
                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp14_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp12_8x16b = _mm_maddubs_epi16(src_temp14_16x8b, coeff2_3_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp13_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff4_5_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp16_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp14_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff6_7_8x16b);   /* row = 1 */

                    res_temp15_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);
                    res_temp16_8x16b = _mm_add_epi16(res_temp13_8x16b, res_temp14_8x16b);
                    res_temp15_8x16b = _mm_add_epi16(res_temp15_8x16b, res_temp16_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pi2_dst + offset), res_temp5_8x16b);
                    _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd + offset), res_temp15_8x16b);

                    offset += 4; /* To pointer updates*/
                }
                pu1_src += 2 * src_strd;  /* Pointer update */
                pi2_dst += 2 * dst_strd;  /* Pointer update */
            }
        }
    }
    else /* odd ht */
    {
        if(0 == (wd & 7)) /* multiple of 8 case */
        {
            for(row = 0; row < ht; row++)
            {
                int offset = 0;

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 8)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));  /* row = 0 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                    /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_store_si128((__m128i *)(pi2_dst + offset), res_temp5_8x16b);

                    offset += 8; /* To pointer updates*/
                }
                pu1_src += src_strd;    /* pointer updates*/
                pi2_dst += dst_strd;    /* pointer updates*/
            }
        }
        else  /* wd = multiple of 4 case */
        {
            for(row = 0; row < (ht - 1); row += 2)
            {
                int offset = 0;


                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                for(col = 0; col < wd; col += 4)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));             /* row = 0 */
                    src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src + src_strd - 3 + offset)); /* row = 1 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                                                                                           /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 1);                   /* row = 1 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/                 /* row = 1 */
                    src_temp13_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp11_8x16b = _mm_maddubs_epi16(src_temp13_16x8b, coeff0_1_8x16b);   /* row = 1 */
                                                                                              /* row = 1 */
                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp14_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp12_8x16b = _mm_maddubs_epi16(src_temp14_16x8b, coeff2_3_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp13_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff4_5_8x16b);   /* row = 1 */

                    src_temp11_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);                   /* row = 1 */
                    src_temp12_16x8b = _mm_srli_si128(src_temp12_16x8b, 2);                   /* row = 1 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/                  /* row = 1 */
                    src_temp16_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b); /* row = 1 */
                    res_temp14_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff6_7_8x16b);   /* row = 1 */

                    res_temp15_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);
                    res_temp16_8x16b = _mm_add_epi16(res_temp13_8x16b, res_temp14_8x16b);
                    res_temp15_8x16b = _mm_add_epi16(res_temp15_8x16b, res_temp16_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pi2_dst + offset), res_temp5_8x16b);
                    _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd + offset), res_temp15_8x16b);

                    offset += 4; /* To pointer updates*/
                }
                pu1_src += 2 * src_strd;  /* Pointer update */
                pi2_dst += 2 * dst_strd;  /* Pointer update */
            }
            { /* last repeat at outside the loop */
                int offset = 0;
                for(col = 0; col < wd; col += 4)
                {
                    /*load 16 pixel values from 12:-3 pos. relative to cur. pos.*/
                    src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 3 + offset));  /* row = 0 */

                    src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 1);                  /* row = 0 */
                    /* pix. |5:-2|4:-3| to do two dot-products at same time*/              /* row = 0 */
                    src_temp3_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp1_8x16b = _mm_maddubs_epi16(src_temp3_16x8b, coeff0_1_8x16b);  /* row = 0 */
                                                                                           /* row = 0 */
                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp4_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp2_8x16b = _mm_maddubs_epi16(src_temp4_16x8b, coeff2_3_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp3_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff4_5_8x16b);  /* row = 0 */

                    src_temp1_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);                  /* row = 0 */
                    src_temp2_16x8b = _mm_srli_si128(src_temp2_16x8b, 2);                  /* row = 0 */
                    /* pix. |7:0|6:-1| to do two dot-products at same time*/               /* row = 0 */
                    src_temp6_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b); /* row = 0 */
                    res_temp4_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff6_7_8x16b);  /* row = 0 */

                    res_temp5_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);
                    res_temp6_8x16b = _mm_add_epi16(res_temp3_8x16b, res_temp4_8x16b);
                    res_temp5_8x16b = _mm_add_epi16(res_temp5_8x16b, res_temp6_8x16b);

                    /* to store the 1st 4 pixels res. */
                    _mm_storel_epi64((__m128i *)(pi2_dst + offset), res_temp5_8x16b);

                    offset += 4; /* To pointer updates*/
                }
            }
        }
    }
}

/**
*******************************************************************************
*
* @brief
*      Interprediction luma filter for vertical 16bit output
*
* @par Description:
*    Applies a vertical filter with coefficients pointed to  by 'pi1_coeff' to
*    the elements pointed by 'pu1_src' and  writes to the location pointed by
*    'pu1_dst'  No downshifting or clipping is done and the output is  used as
*    an input for weighted prediction
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_luma_vert_w16out_ssse3(UWORD8 *pu1_src,
                                             WORD16 *pi2_dst,
                                             WORD32 src_strd,
                                             WORD32 dst_strd,
                                             WORD8 *pi1_coeff,
                                             WORD32 ht,
                                             WORD32 wd)
{
    WORD32 row, col;
    UWORD8 *pu1_src_copy;
    WORD16 *pi2_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b, coeff4_5_8x16b, coeff6_7_8x16b;
    __m128i s0_8x16b, s1_8x16b, s2_8x16b, s3_8x16b, s4_8x16b, s5_8x16b, s6_8x16b;
    __m128i s2_0_16x8b, s2_1_16x8b, s2_2_16x8b, s2_3_16x8b, s2_4_16x8b, s2_5_16x8b, s2_6_16x8b, s2_7_16x8b, s2_8_16x8b, s2_9_16x8b, s2_10_16x8b;
    __m128i s3_0_16x8b, s3_1_16x8b, s3_2_16x8b, s3_3_16x8b, s3_4_16x8b;
    __m128i s4_0_16x8b, s4_1_16x8b, s4_2_16x8b, s4_3_16x8b, s4_4_16x8b;
    __m128i s10_8x16b, s11_8x16b, s12_8x16b, s13_8x16b, s14_8x16b, s15_8x16b, s16_8x16b;
    __m128i s20_8x16b, s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b, s26_8x16b;
    __m128i s30_8x16b, s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b, s36_8x16b;


    __m128i control_mask_1_8x16b, control_mask_2_8x16b, control_mask_3_8x16b, control_mask_4_8x16b;

/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */
    control_mask_3_8x16b = _mm_set1_epi32(0x05040504); /* Control Mask register */
    control_mask_4_8x16b = _mm_set1_epi32(0x07060706); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_2_8x16b);  /* pi1_coeff[4] */

    coeff4_5_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_3_8x16b);  /* pi1_coeff[4] */
    coeff6_7_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_4_8x16b);  /* pi1_coeff[4] */


/*  outer for loop starts from here */
    if((wd % 8) == 0)
    { /* wd = multiple of 8 case */

        pu1_src_copy = pu1_src;
        pi2_dst_copy = pi2_dst;

        for(col = 0; col < wd; col += 8)
        {

            pu1_src = pu1_src_copy + col;
            pi2_dst = pi2_dst_copy + col;

            PREFETCH((char const *)(pu1_src + (8 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (9 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (10 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (11 * src_strd)), _MM_HINT_T0)

            /*load 8 pixel values */
            s2_0_16x8b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-3 * src_strd)));

            /*load 8 pixel values */
            s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-2 * src_strd)));

            s3_0_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);

            s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);

            /*load 8 pixel values */
            s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

            /*load 8 pixel values */
            s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

            s3_1_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

            s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);

            /*load 8 pixel values */
            s2_4_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

            /*load 8 pixel values */
            s2_5_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

            s3_2_16x8b = _mm_unpacklo_epi8(s2_4_16x8b, s2_5_16x8b);

            s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_6_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

            /*load 8 pixel values */
            s2_7_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (4 * src_strd)));

            s3_3_16x8b = _mm_unpacklo_epi8(s2_6_16x8b, s2_7_16x8b);

            s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

            s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
            s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
            s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 0*/
            _mm_store_si128((__m128i *)(pi2_dst), s6_8x16b);

            /* ROW 2*/
            s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
            s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
            s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_8_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (5 * src_strd)));

            /*load 8 pixel values */
            s2_9_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (6 * src_strd)));

            s3_4_16x8b = _mm_unpacklo_epi8(s2_8_16x8b, s2_9_16x8b);

            s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

            s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
            s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
            s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_store_si128((__m128i *)(pi2_dst + (2 * dst_strd)), s26_8x16b);


            /*ROW 1*/
            s4_0_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

            s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);

            s4_1_16x8b = _mm_unpacklo_epi8(s2_3_16x8b, s2_4_16x8b);

            s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);

            s4_2_16x8b = _mm_unpacklo_epi8(s2_5_16x8b, s2_6_16x8b);

            s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

            s4_3_16x8b = _mm_unpacklo_epi8(s2_7_16x8b, s2_8_16x8b);

            s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

            s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
            s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
            s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);


            /* store 8 8-bit output values  */
            /* Store the output pixels of row 1*/
            _mm_store_si128((__m128i *)(pi2_dst + (dst_strd)), s16_8x16b);


            /* ROW 3*/
            s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
            s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
            s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_10_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (7 * src_strd)));

            s4_4_16x8b = _mm_unpacklo_epi8(s2_9_16x8b, s2_10_16x8b);

            s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

            s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
            s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
            s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);


            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_store_si128((__m128i *)(pi2_dst + (3 * dst_strd)), s36_8x16b);

            pu1_src += (8 * src_strd);
            pi2_dst += (4 * dst_strd);

            for(row = 4; row < ht; row += 4)
            {

                PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)

                s3_0_16x8b = s3_2_16x8b;
                s3_1_16x8b = s3_3_16x8b;
                s3_2_16x8b = s3_4_16x8b;

                s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);
                s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);
                s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 4)th row*/
                s2_0_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src));

                s3_3_16x8b = _mm_unpacklo_epi8(s2_10_16x8b, s2_0_16x8b);
                s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

                s4_0_16x8b = s4_2_16x8b;
                s4_1_16x8b = s4_3_16x8b;
                s4_2_16x8b = s4_4_16x8b;

                s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
                s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
                s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of row 4*/
                _mm_store_si128((__m128i *)(pi2_dst), s6_8x16b);

                /* row + 2*/
                s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
                s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
                s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 5)th row*/
                s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + src_strd));

                /*load 8 pixel values from (cur_row + 6)th row*/
                s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                /*unpacking (cur_row + 5)th row and (cur_row + 6)th row*/
                s3_4_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

                s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

                s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
                s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
                s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+2)*/
                _mm_store_si128((__m128i *)(pi2_dst + (2 * dst_strd)), s26_8x16b);


                /*row + 1*/
                s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);
                s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);
                s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

                /*unpacking (cur_row + 4)th row and (cur_row + 5)th row*/
                s4_3_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);
                s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

                s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
                s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
                s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);


                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row + 1)*/
                _mm_store_si128((__m128i *)(pi2_dst + dst_strd), s16_8x16b);


                /* row + 3*/
                s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
                s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
                s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 7)th row*/
                s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                /*unpacking (cur_row + 6)th row and (cur_row + 7)th row*/
                s4_4_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

                s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

                s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
                s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
                s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+3)*/
                _mm_store_si128((__m128i *)(pi2_dst + (3 * dst_strd)), s36_8x16b);

                s2_10_16x8b = s2_3_16x8b;


                pu1_src += 4 * src_strd; /* pointer update */
                pi2_dst += 4 * dst_strd; /* pointer update */
            }
        }
    }
    else /* wd = multiple of 8 case */
    {

        pu1_src_copy = pu1_src;
        pi2_dst_copy = pi2_dst;

        for(col = 0; col < wd; col += 4)
        {

            pu1_src = pu1_src_copy + col;
            pi2_dst = pi2_dst_copy + col;

            PREFETCH((char const *)(pu1_src + (8 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (9 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (10 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (11 * src_strd)), _MM_HINT_T0)

            /*load 8 pixel values */
            s2_0_16x8b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-3 * src_strd)));

            /*load 8 pixel values */
            s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-2 * src_strd)));

            s3_0_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);

            s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);

            /*load 8 pixel values */
            s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

            /*load 8 pixel values */
            s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

            s3_1_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

            s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);

            /*load 8 pixel values */
            s2_4_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

            /*load 8 pixel values */
            s2_5_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

            s3_2_16x8b = _mm_unpacklo_epi8(s2_4_16x8b, s2_5_16x8b);

            s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_6_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

            /*load 8 pixel values */
            s2_7_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (4 * src_strd)));

            s3_3_16x8b = _mm_unpacklo_epi8(s2_6_16x8b, s2_7_16x8b);

            s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

            s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
            s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
            s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 0*/
            _mm_storel_epi64((__m128i *)(pi2_dst), s6_8x16b);

            /* ROW 2*/
            s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
            s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
            s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_8_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (5 * src_strd)));

            /*load 8 pixel values */
            s2_9_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (6 * src_strd)));

            s3_4_16x8b = _mm_unpacklo_epi8(s2_8_16x8b, s2_9_16x8b);

            s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

            s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
            s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
            s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_storel_epi64((__m128i *)(pi2_dst + (2 * dst_strd)), s26_8x16b);


            /*ROW 1*/
            s4_0_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

            s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);

            s4_1_16x8b = _mm_unpacklo_epi8(s2_3_16x8b, s2_4_16x8b);

            s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);

            s4_2_16x8b = _mm_unpacklo_epi8(s2_5_16x8b, s2_6_16x8b);

            s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

            s4_3_16x8b = _mm_unpacklo_epi8(s2_7_16x8b, s2_8_16x8b);

            s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

            s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
            s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
            s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);


            /* store 8 8-bit output values  */
            /* Store the output pixels of row 1*/
            _mm_storel_epi64((__m128i *)(pi2_dst + (dst_strd)), s16_8x16b);


            /* ROW 3*/
            s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
            s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
            s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

            /*load 8 pixel values */
            s2_10_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (7 * src_strd)));

            s4_4_16x8b = _mm_unpacklo_epi8(s2_9_16x8b, s2_10_16x8b);

            s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

            s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
            s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
            s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 2*/
            _mm_storel_epi64((__m128i *)(pi2_dst + (3 * dst_strd)), s36_8x16b);

            pu1_src += (8 * src_strd);
            pi2_dst += (4 * dst_strd);

            for(row = 4; row < ht; row += 4)
            {

                PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)

                s3_0_16x8b = s3_2_16x8b;
                s3_1_16x8b = s3_3_16x8b;
                s3_2_16x8b = s3_4_16x8b;

                s0_8x16b = _mm_maddubs_epi16(s3_0_16x8b, coeff0_1_8x16b);
                s1_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff2_3_8x16b);
                s2_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 4)th row*/
                s2_0_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src));

                s3_3_16x8b = _mm_unpacklo_epi8(s2_10_16x8b, s2_0_16x8b);
                s3_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff6_7_8x16b);

                s4_0_16x8b = s4_2_16x8b;
                s4_1_16x8b = s4_3_16x8b;
                s4_2_16x8b = s4_4_16x8b;

                s4_8x16b = _mm_add_epi16(s0_8x16b, s1_8x16b);
                s5_8x16b = _mm_add_epi16(s2_8x16b, s3_8x16b);
                s6_8x16b = _mm_add_epi16(s4_8x16b, s5_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of row 4*/
                _mm_storel_epi64((__m128i *)(pi2_dst), s6_8x16b);

                /* row + 2*/
                s20_8x16b = _mm_maddubs_epi16(s3_1_16x8b, coeff0_1_8x16b);
                s21_8x16b = _mm_maddubs_epi16(s3_2_16x8b, coeff2_3_8x16b);
                s22_8x16b = _mm_maddubs_epi16(s3_3_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 5)th row*/
                s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + src_strd));

                /*load 8 pixel values from (cur_row + 6)th row*/
                s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                /*unpacking (cur_row + 5)th row and (cur_row + 6)th row*/
                s3_4_16x8b = _mm_unpacklo_epi8(s2_1_16x8b, s2_2_16x8b);

                s23_8x16b = _mm_maddubs_epi16(s3_4_16x8b, coeff6_7_8x16b);

                s24_8x16b = _mm_add_epi16(s20_8x16b, s21_8x16b);
                s25_8x16b = _mm_add_epi16(s22_8x16b, s23_8x16b);
                s26_8x16b = _mm_add_epi16(s24_8x16b, s25_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+2)*/
                _mm_storel_epi64((__m128i *)(pi2_dst + (2 * dst_strd)), s26_8x16b);


                /*row + 1*/
                s10_8x16b = _mm_maddubs_epi16(s4_0_16x8b, coeff0_1_8x16b);
                s11_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff2_3_8x16b);
                s12_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff4_5_8x16b);

                /*unpacking (cur_row + 4)th row and (cur_row + 5)th row*/
                s4_3_16x8b = _mm_unpacklo_epi8(s2_0_16x8b, s2_1_16x8b);
                s13_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff6_7_8x16b);

                s14_8x16b = _mm_add_epi16(s10_8x16b, s11_8x16b);
                s15_8x16b = _mm_add_epi16(s12_8x16b, s13_8x16b);
                s16_8x16b = _mm_add_epi16(s14_8x16b, s15_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row + 1)*/
                _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd), s16_8x16b);


                /* row + 3*/
                s30_8x16b = _mm_maddubs_epi16(s4_1_16x8b, coeff0_1_8x16b);
                s31_8x16b = _mm_maddubs_epi16(s4_2_16x8b, coeff2_3_8x16b);
                s32_8x16b = _mm_maddubs_epi16(s4_3_16x8b, coeff4_5_8x16b);

                /*load 8 pixel values from (cur_row + 7)th row*/
                s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                /*unpacking (cur_row + 6)th row and (cur_row + 7)th row*/
                s4_4_16x8b = _mm_unpacklo_epi8(s2_2_16x8b, s2_3_16x8b);

                s33_8x16b = _mm_maddubs_epi16(s4_4_16x8b, coeff6_7_8x16b);

                s34_8x16b = _mm_add_epi16(s30_8x16b, s31_8x16b);
                s35_8x16b = _mm_add_epi16(s32_8x16b, s33_8x16b);
                s36_8x16b = _mm_add_epi16(s34_8x16b, s35_8x16b);

                /* store 8 8-bit output values  */
                /* Store the output pixels of (cur_row+3)*/
                _mm_storel_epi64((__m128i *)(pi2_dst + (3 * dst_strd)), s36_8x16b);

                s2_10_16x8b = s2_3_16x8b;

                pu1_src += 4 * src_strd; /* pointer update */
                pi2_dst += 4 * dst_strd; /* pointer update */
            }
        }
    }
}

/**
*******************************************************************************
*
* @brief
*
*        Luma vertical filter for 16bit input.
*
* @par Description:
*   Applies a vertical filter with coefficients pointed to  by 'pi1_coeff' to
*   the elements pointed by 'pu1_src' and  writes to the location pointed by
*   'pu1_dst'  Input is 16 bits  The filter output is downshifted by 12 and
*   clipped to lie  between 0 and 255
*
* @param[in] pi2_src
*  WORD16 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_luma_vert_w16inp_ssse3(WORD16 *pi2_src,
                                             UWORD8 *pu1_dst,
                                             WORD32 src_strd,
                                             WORD32 dst_strd,
                                             WORD8 *pi1_coeff,
                                             WORD32 ht,
                                             WORD32 wd)
{
    WORD32 row, col;
    WORD16 *pi2_src_copy;
    UWORD8 *pu1_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b, coeff4_5_8x16b, coeff6_7_8x16b;
    __m128i s0_8x16b, s1_8x16b, s2_8x16b, s3_8x16b, s4_8x16b, s5_8x16b, s6_8x16b, s8_8x16b, s9_8x16b;
    __m128i s2_0_16x8b, s2_1_16x8b, s2_2_16x8b, s2_3_16x8b, s2_4_16x8b, s2_5_16x8b, s2_6_16x8b, s2_7_16x8b, s2_8_16x8b, s2_9_16x8b, s2_10_16x8b;
    __m128i s3_0_16x8b, s3_1_16x8b, s3_2_16x8b, s3_3_16x8b, s3_4_16x8b;
    __m128i s4_0_16x8b, s4_1_16x8b, s4_2_16x8b, s4_3_16x8b, s4_4_16x8b;
    __m128i s10_8x16b, s11_8x16b, s12_8x16b, s13_8x16b, s14_8x16b, s15_8x16b, s16_8x16b, s18_8x16b, s19_8x16b;
    __m128i s20_8x16b, s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b, s26_8x16b, s28_8x16b, s29_8x16b;
    __m128i s30_8x16b, s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b, s36_8x16b, s38_8x16b, s39_8x16b;

    __m128i zero_8x16b, offset_8x16b, mask_low_32b, mask_high_96b, sign_reg;

/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    zero_8x16b = _mm_setzero_si128();
    sign_reg =  _mm_cmpgt_epi8(zero_8x16b, s4_8x16b);
    s5_8x16b  = _mm_unpacklo_epi8(s4_8x16b, sign_reg);

    coeff0_1_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(0, 0, 0, 0));  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(1, 1, 1, 1));  /* pi1_coeff[4] */

    coeff4_5_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(2, 2, 2, 2));  /* pi1_coeff[4] */
    coeff6_7_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(3, 3, 3, 3));  /* pi1_coeff[4] */


/* seting values in register */
    offset_8x16b = _mm_set1_epi32(OFFSET_14_MINUS_BIT_DEPTH); /* for offset addition */
    mask_low_32b = _mm_set_epi32(0xFFFFFFFF, 0xFFFFFFFF, 0xFFFFFFFF, 0x00000000);
    mask_high_96b = _mm_set_epi32(0x00000000, 0x00000000, 0x00000000, 0xFFFFFFFF);


    pi2_src_copy = pi2_src;
    pu1_dst_copy = pu1_dst;

/*  outer for loop starts from here */
    for(col = 0; col < wd; col += 4)
    {

        pi2_src = pi2_src_copy + col;
        pu1_dst = pu1_dst_copy + col;

        /*load 4 pixel values */
        s2_0_16x8b  = _mm_loadl_epi64((__m128i *)(pi2_src + (-3 * src_strd)));

        /*load 4 pixel values */
        s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (-2 * src_strd)));

        s3_0_16x8b = _mm_unpacklo_epi16(s2_0_16x8b, s2_1_16x8b);

        s0_8x16b = _mm_madd_epi16(s3_0_16x8b, coeff0_1_8x16b);

        /*load 4 pixel values */
        s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (-1 * src_strd)));

        /*load 4 pixel values */
        s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (0 * src_strd)));

        s3_1_16x8b = _mm_unpacklo_epi16(s2_2_16x8b, s2_3_16x8b);

        s1_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff2_3_8x16b);

        /*load 4 pixel values */
        s2_4_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (1 * src_strd)));

        /*load 4 pixel values */
        s2_5_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (2 * src_strd)));

        s3_2_16x8b = _mm_unpacklo_epi16(s2_4_16x8b, s2_5_16x8b);

        s2_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff4_5_8x16b);

        /*load 4 pixel values */
        s2_6_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (3 * src_strd)));

        /*load 4 pixel values */
        s2_7_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (4 * src_strd)));

        s3_3_16x8b = _mm_unpacklo_epi16(s2_6_16x8b, s2_7_16x8b);

        s3_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff6_7_8x16b);

        s4_8x16b = _mm_add_epi32(s0_8x16b, s1_8x16b);
        s5_8x16b = _mm_add_epi32(s2_8x16b, s3_8x16b);
        s6_8x16b = _mm_add_epi32(s4_8x16b, s5_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s8_8x16b = _mm_srai_epi32(s6_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s9_8x16b = _mm_add_epi32(s8_8x16b, offset_8x16b);

        /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s8_8x16b = _mm_srai_epi32(s9_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        s8_8x16b = _mm_packs_epi32(s8_8x16b, zero_8x16b);


        /* i2_tmp = CLIP_U8(i2_tmp);*/
        s9_8x16b = _mm_packus_epi16(s8_8x16b, zero_8x16b);

        s4_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst));
        s5_8x16b =  _mm_and_si128(s4_8x16b, mask_low_32b);
        s6_8x16b =  _mm_and_si128(s9_8x16b, mask_high_96b);
        s9_8x16b = _mm_or_si128(s5_8x16b, s6_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 0*/
        _mm_storel_epi64((__m128i *)(pu1_dst), s9_8x16b);

        /* ROW 2*/
        s20_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff0_1_8x16b);
        s21_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff2_3_8x16b);
        s22_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff4_5_8x16b);

        /*load 4 pixel values */
        s2_8_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (5 * src_strd)));

        /*load 4 pixel values */
        s2_9_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (6 * src_strd)));

        s3_4_16x8b = _mm_unpacklo_epi16(s2_8_16x8b, s2_9_16x8b);

        s23_8x16b = _mm_madd_epi16(s3_4_16x8b, coeff6_7_8x16b);

        s24_8x16b = _mm_add_epi32(s20_8x16b, s21_8x16b);
        s25_8x16b = _mm_add_epi32(s22_8x16b, s23_8x16b);
        s26_8x16b = _mm_add_epi32(s24_8x16b, s25_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s28_8x16b = _mm_srai_epi32(s26_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s29_8x16b = _mm_add_epi32(s28_8x16b, offset_8x16b);

        /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s28_8x16b = _mm_srai_epi32(s29_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        s28_8x16b = _mm_packs_epi32(s28_8x16b, zero_8x16b);


        /* i2_tmp = CLIP_U8(i2_tmp);*/
        s29_8x16b = _mm_packus_epi16(s28_8x16b, zero_8x16b);

        s24_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (2 * dst_strd)));
        s25_8x16b =  _mm_and_si128(s24_8x16b, mask_low_32b);
        s26_8x16b =  _mm_and_si128(s29_8x16b, mask_high_96b);
        s29_8x16b = _mm_or_si128(s25_8x16b, s26_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 2*/
        _mm_storel_epi64((__m128i *)(pu1_dst + (2 * dst_strd)), s29_8x16b);


        /*ROW 1*/
        s4_0_16x8b = _mm_unpacklo_epi16(s2_1_16x8b, s2_2_16x8b);

        s10_8x16b = _mm_madd_epi16(s4_0_16x8b, coeff0_1_8x16b);

        s4_1_16x8b = _mm_unpacklo_epi16(s2_3_16x8b, s2_4_16x8b);

        s11_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff2_3_8x16b);

        s4_2_16x8b = _mm_unpacklo_epi16(s2_5_16x8b, s2_6_16x8b);

        s12_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff4_5_8x16b);

        s4_3_16x8b = _mm_unpacklo_epi16(s2_7_16x8b, s2_8_16x8b);

        s13_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff6_7_8x16b);

        s14_8x16b = _mm_add_epi32(s10_8x16b, s11_8x16b);
        s15_8x16b = _mm_add_epi32(s12_8x16b, s13_8x16b);
        s16_8x16b = _mm_add_epi32(s14_8x16b, s15_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s18_8x16b = _mm_srai_epi32(s16_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s19_8x16b = _mm_add_epi32(s18_8x16b, offset_8x16b);

        /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s18_8x16b = _mm_srai_epi32(s19_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        s18_8x16b = _mm_packs_epi32(s18_8x16b, zero_8x16b);


        /* i2_tmp = CLIP_U8(i2_tmp);*/
        s19_8x16b = _mm_packus_epi16(s18_8x16b, zero_8x16b);

        s14_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (dst_strd)));
        s15_8x16b =  _mm_and_si128(s14_8x16b, mask_low_32b);
        s16_8x16b =  _mm_and_si128(s19_8x16b, mask_high_96b);
        s19_8x16b = _mm_or_si128(s15_8x16b, s16_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 1*/
        _mm_storel_epi64((__m128i *)(pu1_dst + (dst_strd)), s19_8x16b);


        /* ROW 3*/
        s30_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff0_1_8x16b);
        s31_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff2_3_8x16b);
        s32_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff4_5_8x16b);

        /*load 4 pixel values */
        s2_10_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (7 * src_strd)));

        s4_4_16x8b = _mm_unpacklo_epi16(s2_9_16x8b, s2_10_16x8b);

        s33_8x16b = _mm_madd_epi16(s4_4_16x8b, coeff6_7_8x16b);

        s34_8x16b = _mm_add_epi32(s30_8x16b, s31_8x16b);
        s35_8x16b = _mm_add_epi32(s32_8x16b, s33_8x16b);
        s36_8x16b = _mm_add_epi32(s34_8x16b, s35_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s38_8x16b = _mm_srai_epi32(s36_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);


        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s39_8x16b = _mm_add_epi32(s38_8x16b, offset_8x16b);

        /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s38_8x16b = _mm_srai_epi32(s39_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        s38_8x16b = _mm_packs_epi32(s38_8x16b, zero_8x16b);


        /* i2_tmp = CLIP_U8(i2_tmp);*/
        s39_8x16b = _mm_packus_epi16(s38_8x16b, zero_8x16b);

        s34_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (3 * dst_strd)));
        s35_8x16b =  _mm_and_si128(s34_8x16b, mask_low_32b);
        s36_8x16b =  _mm_and_si128(s39_8x16b, mask_high_96b);
        s39_8x16b = _mm_or_si128(s35_8x16b, s36_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 2*/
        _mm_storel_epi64((__m128i *)(pu1_dst + (3 * dst_strd)), s39_8x16b);

        pi2_src += (8 * src_strd);
        pu1_dst += (4 * dst_strd);

        for(row = 4; row < ht; row += 4)
        {

            s3_0_16x8b = s3_2_16x8b;
            s3_1_16x8b = s3_3_16x8b;
            s3_2_16x8b = s3_4_16x8b;

            s0_8x16b = _mm_madd_epi16(s3_0_16x8b, coeff0_1_8x16b);
            s1_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff2_3_8x16b);
            s2_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff4_5_8x16b);

            /*load 4 pixel values from (cur_row + 4)th row*/
            s2_0_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src));

            s3_3_16x8b = _mm_unpacklo_epi16(s2_10_16x8b, s2_0_16x8b);
            s3_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff6_7_8x16b);

            s4_0_16x8b = s4_2_16x8b;
            s4_1_16x8b = s4_3_16x8b;
            s4_2_16x8b = s4_4_16x8b;

            s4_8x16b = _mm_add_epi32(s0_8x16b, s1_8x16b);
            s5_8x16b = _mm_add_epi32(s2_8x16b, s3_8x16b);
            s6_8x16b = _mm_add_epi32(s4_8x16b, s5_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s8_8x16b = _mm_srai_epi32(s6_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s9_8x16b = _mm_add_epi32(s8_8x16b, offset_8x16b);

            /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s8_8x16b = _mm_srai_epi32(s9_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            s8_8x16b = _mm_packs_epi32(s8_8x16b, zero_8x16b);


            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s9_8x16b = _mm_packus_epi16(s8_8x16b, zero_8x16b);

            s4_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst));
            s5_8x16b =  _mm_and_si128(s4_8x16b, mask_low_32b);
            s6_8x16b =  _mm_and_si128(s9_8x16b, mask_high_96b);
            s9_8x16b = _mm_or_si128(s5_8x16b, s6_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 4*/
            _mm_storel_epi64((__m128i *)(pu1_dst), s9_8x16b);

/* row + 2*/
            s20_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff0_1_8x16b);
            s21_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff2_3_8x16b);
            s22_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff4_5_8x16b);

            /*load 4 pixel values from (cur_row + 5)th row*/
            s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + src_strd));

            /*load 4 pixel values from (cur_row + 6)th row*/
            s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (2 * src_strd)));

            /*unpacking (cur_row + 5)th row and (cur_row + 6)th row*/
            s3_4_16x8b = _mm_unpacklo_epi16(s2_1_16x8b, s2_2_16x8b);

            s23_8x16b = _mm_madd_epi16(s3_4_16x8b, coeff6_7_8x16b);

            s24_8x16b = _mm_add_epi32(s20_8x16b, s21_8x16b);
            s25_8x16b = _mm_add_epi32(s22_8x16b, s23_8x16b);
            s26_8x16b = _mm_add_epi32(s24_8x16b, s25_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s28_8x16b = _mm_srai_epi32(s26_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s29_8x16b = _mm_add_epi32(s28_8x16b, offset_8x16b);

            /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s28_8x16b = _mm_srai_epi32(s29_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            s28_8x16b = _mm_packs_epi32(s28_8x16b, zero_8x16b);


            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s29_8x16b = _mm_packus_epi16(s28_8x16b, zero_8x16b);

            s24_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (2 * dst_strd)));
            s25_8x16b =  _mm_and_si128(s24_8x16b, mask_low_32b);
            s26_8x16b =  _mm_and_si128(s29_8x16b, mask_high_96b);
            s29_8x16b = _mm_or_si128(s25_8x16b, s26_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of (cur_row+2)*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (2 * dst_strd)), s29_8x16b);


/*row + 1*/
            s10_8x16b = _mm_madd_epi16(s4_0_16x8b, coeff0_1_8x16b);
            s11_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff2_3_8x16b);
            s12_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff4_5_8x16b);

            /*unpacking (cur_row + 4)th row and (cur_row + 5)th row*/
            s4_3_16x8b = _mm_unpacklo_epi16(s2_0_16x8b, s2_1_16x8b);
            s13_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff6_7_8x16b);

            s14_8x16b = _mm_add_epi32(s10_8x16b, s11_8x16b);
            s15_8x16b = _mm_add_epi32(s12_8x16b, s13_8x16b);
            s16_8x16b = _mm_add_epi32(s14_8x16b, s15_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s18_8x16b = _mm_srai_epi32(s16_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s19_8x16b = _mm_add_epi32(s18_8x16b, offset_8x16b);

            /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s18_8x16b = _mm_srai_epi32(s19_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            s18_8x16b = _mm_packs_epi32(s18_8x16b, zero_8x16b);

            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s19_8x16b = _mm_packus_epi16(s18_8x16b, zero_8x16b);

            s14_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd));
            s15_8x16b =  _mm_and_si128(s14_8x16b, mask_low_32b);
            s16_8x16b =  _mm_and_si128(s19_8x16b, mask_high_96b);
            s19_8x16b = _mm_or_si128(s15_8x16b, s16_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of (cur_row + 1)*/
            _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd), s19_8x16b);


/* row + 3*/
            s30_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff0_1_8x16b);
            s31_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff2_3_8x16b);
            s32_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff4_5_8x16b);

            /*load 4 pixel values from (cur_row + 7)th row*/
            s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (3 * src_strd)));

            /*unpacking (cur_row + 6)th row and (cur_row + 7)th row*/
            s4_4_16x8b = _mm_unpacklo_epi16(s2_2_16x8b, s2_3_16x8b);

            s33_8x16b = _mm_madd_epi16(s4_4_16x8b, coeff6_7_8x16b);

            s34_8x16b = _mm_add_epi32(s30_8x16b, s31_8x16b);
            s35_8x16b = _mm_add_epi32(s32_8x16b, s33_8x16b);
            s36_8x16b = _mm_add_epi32(s34_8x16b, s35_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s38_8x16b = _mm_srai_epi32(s36_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s39_8x16b = _mm_add_epi32(s38_8x16b, offset_8x16b);

            /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s38_8x16b = _mm_srai_epi32(s39_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            s38_8x16b = _mm_packs_epi32(s38_8x16b, zero_8x16b);


            /* i2_tmp = CLIP_U8(i2_tmp);*/
            s39_8x16b = _mm_packus_epi16(s38_8x16b, zero_8x16b);

            s34_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + (3 * dst_strd)));
            s35_8x16b =  _mm_and_si128(s34_8x16b, mask_low_32b);
            s36_8x16b =  _mm_and_si128(s39_8x16b, mask_high_96b);
            s39_8x16b = _mm_or_si128(s35_8x16b, s36_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of (cur_row+3)*/
            _mm_storel_epi64((__m128i *)(pu1_dst + (3 * dst_strd)), s39_8x16b);

            s2_10_16x8b = s2_3_16x8b;

            pi2_src += 4 * src_strd; /* pointer update */
            pu1_dst += 4 * dst_strd; /* pointer update */
        }
    }

}


/**
*******************************************************************************
*
* @brief
*      Luma prediction filter for vertical 16bit input & output
*
* @par Description:
*    Applies a vertical filter with coefficients pointed to  by 'pi1_coeff' to
*    the elements pointed by 'pu1_src' and  writes to the location pointed by
*    'pu1_dst'  Input is 16 bits  The filter output is downshifted by 6 and
*    8192 is  subtracted to store it as a 16 bit number  The output is used as
*    a input to weighted prediction
*
* @param[in] pi2_src
*  WORD16 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_luma_vert_w16inp_w16out_ssse3(WORD16 *pi2_src,
                                                    WORD16 *pi2_dst,
                                                    WORD32 src_strd,
                                                    WORD32 dst_strd,
                                                    WORD8 *pi1_coeff,
                                                    WORD32 ht,
                                                    WORD32 wd)
{
    WORD32 row, col;
    WORD16 *pi2_src_copy;
    WORD16 *pi2_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b, coeff4_5_8x16b, coeff6_7_8x16b;
    __m128i s0_8x16b, s1_8x16b, s2_8x16b, s3_8x16b, s4_8x16b, s5_8x16b, s6_8x16b, s8_8x16b, s9_8x16b;
    __m128i s2_0_16x8b, s2_1_16x8b, s2_2_16x8b, s2_3_16x8b, s2_4_16x8b, s2_5_16x8b, s2_6_16x8b, s2_7_16x8b, s2_8_16x8b, s2_9_16x8b, s2_10_16x8b;
    __m128i s3_0_16x8b, s3_1_16x8b, s3_2_16x8b, s3_3_16x8b, s3_4_16x8b;
    __m128i s4_0_16x8b, s4_1_16x8b, s4_2_16x8b, s4_3_16x8b, s4_4_16x8b;
    __m128i s10_8x16b, s11_8x16b, s12_8x16b, s13_8x16b, s14_8x16b, s15_8x16b, s16_8x16b, s18_8x16b, s19_8x16b;
    __m128i s20_8x16b, s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b, s26_8x16b, s28_8x16b, s29_8x16b;
    __m128i s30_8x16b, s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b, s36_8x16b, s38_8x16b, s39_8x16b;

    __m128i zero_8x16b, offset_8x16b, sign_reg;

/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    zero_8x16b = _mm_setzero_si128();
    sign_reg =  _mm_cmpgt_epi8(zero_8x16b, s4_8x16b);
    s5_8x16b  = _mm_unpacklo_epi8(s4_8x16b, sign_reg);

    coeff0_1_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(0, 0, 0, 0));  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(1, 1, 1, 1));  /* pi1_coeff[4] */

    coeff4_5_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(2, 2, 2, 2));  /* pi1_coeff[4] */
    coeff6_7_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(3, 3, 3, 3));  /* pi1_coeff[4] */


/* seting values in register */
    offset_8x16b = _mm_set1_epi32(OFFSET14); /* for offset addition */

    pi2_src_copy = pi2_src;
    pi2_dst_copy = pi2_dst;

/*  outer for loop starts from here */
    for(col = 0; col < wd; col += 4)
    {

        pi2_src = pi2_src_copy + col;
        pi2_dst = pi2_dst_copy + col;

        /*load 4 pixel values*/
        s2_0_16x8b  = _mm_loadl_epi64((__m128i *)(pi2_src + (-3 * src_strd)));

        /*load 4 pixel values*/
        s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (-2 * src_strd)));

        s3_0_16x8b = _mm_unpacklo_epi16(s2_0_16x8b, s2_1_16x8b);

        s0_8x16b = _mm_madd_epi16(s3_0_16x8b, coeff0_1_8x16b);

        /*load 4 pixel values*/
        s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (-1 * src_strd)));

        /*load 4 pixel values*/
        s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (0 * src_strd)));

        s3_1_16x8b = _mm_unpacklo_epi16(s2_2_16x8b, s2_3_16x8b);

        s1_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff2_3_8x16b);

        /*load 4 pixel values*/
        s2_4_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (1 * src_strd)));

        /*load 4 pixel values*/
        s2_5_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (2 * src_strd)));

        s3_2_16x8b = _mm_unpacklo_epi16(s2_4_16x8b, s2_5_16x8b);

        s2_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff4_5_8x16b);

        /*load 4 pixel values*/
        s2_6_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (3 * src_strd)));

        /*load 4 pixel values*/
        s2_7_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (4 * src_strd)));

        s3_3_16x8b = _mm_unpacklo_epi16(s2_6_16x8b, s2_7_16x8b);

        s3_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff6_7_8x16b);

        s4_8x16b = _mm_add_epi32(s0_8x16b, s1_8x16b);
        s5_8x16b = _mm_add_epi32(s2_8x16b, s3_8x16b);
        s6_8x16b = _mm_add_epi32(s4_8x16b, s5_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s8_8x16b = _mm_srai_epi32(s6_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s9_8x16b = _mm_sub_epi32(s8_8x16b, offset_8x16b);

        s8_8x16b = _mm_packs_epi32(s9_8x16b, zero_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 0*/
        _mm_storel_epi64((__m128i *)(pi2_dst), s8_8x16b);

        /* ROW 2*/
        s20_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff0_1_8x16b);
        s21_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff2_3_8x16b);
        s22_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff4_5_8x16b);

        /*load 4 pixel values*/
        s2_8_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (5 * src_strd)));

        /*load 4 pixel values*/
        s2_9_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (6 * src_strd)));

        s3_4_16x8b = _mm_unpacklo_epi16(s2_8_16x8b, s2_9_16x8b);

        s23_8x16b = _mm_madd_epi16(s3_4_16x8b, coeff6_7_8x16b);

        s24_8x16b = _mm_add_epi32(s20_8x16b, s21_8x16b);
        s25_8x16b = _mm_add_epi32(s22_8x16b, s23_8x16b);
        s26_8x16b = _mm_add_epi32(s24_8x16b, s25_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s28_8x16b = _mm_srai_epi32(s26_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s29_8x16b = _mm_sub_epi32(s28_8x16b, offset_8x16b);

        s28_8x16b = _mm_packs_epi32(s29_8x16b, zero_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 2*/
        _mm_storel_epi64((__m128i *)(pi2_dst + (2 * dst_strd)), s28_8x16b);


        /*ROW 1*/
        s4_0_16x8b = _mm_unpacklo_epi16(s2_1_16x8b, s2_2_16x8b);

        s10_8x16b = _mm_madd_epi16(s4_0_16x8b, coeff0_1_8x16b);

        s4_1_16x8b = _mm_unpacklo_epi16(s2_3_16x8b, s2_4_16x8b);

        s11_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff2_3_8x16b);

        s4_2_16x8b = _mm_unpacklo_epi16(s2_5_16x8b, s2_6_16x8b);

        s12_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff4_5_8x16b);

        s4_3_16x8b = _mm_unpacklo_epi16(s2_7_16x8b, s2_8_16x8b);

        s13_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff6_7_8x16b);

        s14_8x16b = _mm_add_epi32(s10_8x16b, s11_8x16b);
        s15_8x16b = _mm_add_epi32(s12_8x16b, s13_8x16b);
        s16_8x16b = _mm_add_epi32(s14_8x16b, s15_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s18_8x16b = _mm_srai_epi32(s16_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s19_8x16b = _mm_sub_epi32(s18_8x16b, offset_8x16b);

        s18_8x16b = _mm_packs_epi32(s19_8x16b, zero_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 1*/
        _mm_storel_epi64((__m128i *)(pi2_dst + (dst_strd)), s18_8x16b);


        /* ROW 3*/
        s30_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff0_1_8x16b);
        s31_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff2_3_8x16b);
        s32_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff4_5_8x16b);

        /*load 4 pixel values*/
        s2_10_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (7 * src_strd)));

        s4_4_16x8b = _mm_unpacklo_epi16(s2_9_16x8b, s2_10_16x8b);

        s33_8x16b = _mm_madd_epi16(s4_4_16x8b, coeff6_7_8x16b);

        s34_8x16b = _mm_add_epi32(s30_8x16b, s31_8x16b);
        s35_8x16b = _mm_add_epi32(s32_8x16b, s33_8x16b);
        s36_8x16b = _mm_add_epi32(s34_8x16b, s35_8x16b);

        /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
        s38_8x16b = _mm_srai_epi32(s36_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);


        /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
        s39_8x16b = _mm_sub_epi32(s38_8x16b, offset_8x16b);

        s38_8x16b = _mm_packs_epi32(s39_8x16b, zero_8x16b);

        /* store 8 8-bit output values  */
        /* Store the output pixels of row 2*/
        _mm_storel_epi64((__m128i *)(pi2_dst + (3 * dst_strd)), s38_8x16b);

        pi2_src += (8 * src_strd);
        pi2_dst += (4 * dst_strd);

        for(row = 4; row < ht; row += 4)
        {

            s3_0_16x8b = s3_2_16x8b;
            s3_1_16x8b = s3_3_16x8b;
            s3_2_16x8b = s3_4_16x8b;

            s0_8x16b = _mm_madd_epi16(s3_0_16x8b, coeff0_1_8x16b);
            s1_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff2_3_8x16b);
            s2_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff4_5_8x16b);

            /*load 4 pixel values from (cur_row + 4)th row*/
            s2_0_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src));

            s3_3_16x8b = _mm_unpacklo_epi16(s2_10_16x8b, s2_0_16x8b);
            s3_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff6_7_8x16b);

            s4_0_16x8b = s4_2_16x8b;
            s4_1_16x8b = s4_3_16x8b;
            s4_2_16x8b = s4_4_16x8b;

            s4_8x16b = _mm_add_epi32(s0_8x16b, s1_8x16b);
            s5_8x16b = _mm_add_epi32(s2_8x16b, s3_8x16b);
            s6_8x16b = _mm_add_epi32(s4_8x16b, s5_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s8_8x16b = _mm_srai_epi32(s6_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s9_8x16b = _mm_sub_epi32(s8_8x16b, offset_8x16b);

            s8_8x16b = _mm_packs_epi32(s9_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of row 4*/
            _mm_storel_epi64((__m128i *)(pi2_dst), s8_8x16b);

/* row + 2*/
            s20_8x16b = _mm_madd_epi16(s3_1_16x8b, coeff0_1_8x16b);
            s21_8x16b = _mm_madd_epi16(s3_2_16x8b, coeff2_3_8x16b);
            s22_8x16b = _mm_madd_epi16(s3_3_16x8b, coeff4_5_8x16b);

            /*load 4 pixel values from (cur_row + 5)th row*/
            s2_1_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + src_strd));

            /*load 4 pixel values from (cur_row + 6)th row*/
            s2_2_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (2 * src_strd)));

            /*unpacking (cur_row + 5)th row and (cur_row + 6)th row*/
            s3_4_16x8b = _mm_unpacklo_epi16(s2_1_16x8b, s2_2_16x8b);

            s23_8x16b = _mm_madd_epi16(s3_4_16x8b, coeff6_7_8x16b);

            s24_8x16b = _mm_add_epi32(s20_8x16b, s21_8x16b);
            s25_8x16b = _mm_add_epi32(s22_8x16b, s23_8x16b);
            s26_8x16b = _mm_add_epi32(s24_8x16b, s25_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s28_8x16b = _mm_srai_epi32(s26_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s29_8x16b = _mm_sub_epi32(s28_8x16b, offset_8x16b);

            s28_8x16b = _mm_packs_epi32(s29_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of (cur_row+2)*/
            _mm_storel_epi64((__m128i *)(pi2_dst + (2 * dst_strd)), s28_8x16b);


/*row + 1*/
            s10_8x16b = _mm_madd_epi16(s4_0_16x8b, coeff0_1_8x16b);
            s11_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff2_3_8x16b);
            s12_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff4_5_8x16b);

            /*unpacking (cur_row + 4)th row and (cur_row + 5)th row*/
            s4_3_16x8b = _mm_unpacklo_epi16(s2_0_16x8b, s2_1_16x8b);
            s13_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff6_7_8x16b);

            s14_8x16b = _mm_add_epi32(s10_8x16b, s11_8x16b);
            s15_8x16b = _mm_add_epi32(s12_8x16b, s13_8x16b);
            s16_8x16b = _mm_add_epi32(s14_8x16b, s15_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s18_8x16b = _mm_srai_epi32(s16_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s19_8x16b = _mm_sub_epi32(s18_8x16b, offset_8x16b);

            s18_8x16b = _mm_packs_epi32(s19_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of (cur_row + 1)*/
            _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd), s18_8x16b);


/* row + 3*/
            s30_8x16b = _mm_madd_epi16(s4_1_16x8b, coeff0_1_8x16b);
            s31_8x16b = _mm_madd_epi16(s4_2_16x8b, coeff2_3_8x16b);
            s32_8x16b = _mm_madd_epi16(s4_3_16x8b, coeff4_5_8x16b);

            /*load 4 pixel values from (cur_row + 7)th row*/
            s2_3_16x8b = _mm_loadl_epi64((__m128i *)(pi2_src + (3 * src_strd)));

            /*unpacking (cur_row + 6)th row and (cur_row + 7)th row*/
            s4_4_16x8b = _mm_unpacklo_epi16(s2_2_16x8b, s2_3_16x8b);

            s33_8x16b = _mm_madd_epi16(s4_4_16x8b, coeff6_7_8x16b);

            s34_8x16b = _mm_add_epi32(s30_8x16b, s31_8x16b);
            s35_8x16b = _mm_add_epi32(s32_8x16b, s33_8x16b);
            s36_8x16b = _mm_add_epi32(s34_8x16b, s35_8x16b);

            /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
            s38_8x16b = _mm_srai_epi32(s36_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

            /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
            s39_8x16b = _mm_sub_epi32(s38_8x16b, offset_8x16b);

            s38_8x16b = _mm_packs_epi32(s39_8x16b, zero_8x16b);

            /* store 8 8-bit output values  */
            /* Store the output pixels of (cur_row+3)*/
            _mm_storel_epi64((__m128i *)(pi2_dst + (3 * dst_strd)), s38_8x16b);

            s2_10_16x8b = s2_3_16x8b;

            pi2_src += 4 * src_strd; /* pointer update */
            pi2_dst += 4 * dst_strd; /* pointer update */
        }
    }

}

/**
*******************************************************************************
*
* @brief
*      Chroma interprediction filter for copy
*
* @par Description:
*    Copies the array of width 'wd' and height 'ht' from the  location pointed
*    by 'src' to the location pointed by 'dst'
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/

void ihevc_inter_pred_chroma_copy_ssse3(UWORD8 *pu1_src,
                                        UWORD8 *pu1_dst,
                                        WORD32 src_strd,
                                        WORD32 dst_strd,
                                        WORD8 *pi1_coeff,
                                        WORD32 ht,
                                        WORD32 wd)
{
    WORD32 row, col;
    __m128i  s3, mask_4x32b;
    UNUSED(pi1_coeff);
    ASSERT(wd % 2 == 0); /* checking assumption*/
    ASSERT(ht % 2 == 0); /* checking assumption*/

    mask_4x32b = _mm_set_epi32(0, 0, 0, 0x80808080); /* Mask register */

/*  for loop starts from here */
    if(wd % 8 == 0)
    {
        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;
            for(col = 0; col < 2 * wd; col += 16)
            {
/* row =0 */

                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col]; */
                /* storing 16 8-bit output values */
                _mm_storeu_si128((__m128i *)(pu1_dst + offset), s3); /* pu1_dst[col] = pu1_src[col]; */

/* row =1 */
                /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset)); /* pu1_src[col]; */
                /* storing 8 8-bit output values */
                _mm_storeu_si128((__m128i *)(pu1_dst + dst_strd + offset), s3); /* pu1_dst[col] = pu1_src[col]*/

                offset += 16; /*To pointer update */
            } /*  inner for loop ends here(16-output values in single iteration) */

            pu1_src += 2 * src_strd; /* pointer update */
            pu1_dst += 2 * dst_strd; /* pointer update */
        }
    }
    else if(wd % 4 == 0)
    {
        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;
            for(col = 0; col < 2 * wd; col += 8)
            {
/* row =0  */
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col]; */
                /* storing 8 8-bit output values */
                _mm_storel_epi64((__m128i *)(pu1_dst + offset), s3); /* pu1_dst[col] = pu1_src[col]; */
/* row =1 */
                /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset)); /* pu1_src[col]; */
                /* storing 8 8-bit output values */
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd + offset), s3); /* pu1_dst[col] = pu1_src[col]; */

                offset += 8; /* To pointer update */
            } /* inner for loop ends here(8-output values in single iteration) */

            pu1_src += 2 * src_strd;  /* pointer update */
            pu1_dst += 2 * dst_strd;  /* pointer update */
        }
    }
    else
    {
        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;
            for(col = 0; col < 2 * wd; col += 4)
            {
/* row =0 */
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col] */
                /* storing four 8-bit output values */
                _mm_maskmoveu_si128(s3, mask_4x32b, (char *)(pu1_dst + offset)); /* pu1_dst[col] = pu1_src[col]; */
/* row =1 */
                /* pu1_src[col] */
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset));

                /* storing four 8-bit output values */
                _mm_maskmoveu_si128(s3, mask_4x32b, (char *)(pu1_dst + dst_strd + offset)); /* pu1_dst[col] = pu1_src[col]; */

                offset += 4; /* To pointer update */
            } /*  inner for loop ends here(4-output values in single iteration) */

            pu1_src += 2 * src_strd; /* pointer increment */
            pu1_dst += 2 * dst_strd; /* pointer increment */
        }
    }
}

/**
*******************************************************************************
*
* @brief
*     Chroma interprediction filter for horizontal input
*
* @par Description:
*    Applies a horizontal filter with coefficients pointed to  by 'pi1_coeff'
*    to the elements pointed by 'pu1_src' and  writes to the location pointed
*    by 'pu1_dst'  The output is downshifted by 6 and clipped to 8 bits
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_chroma_horz_ssse3(UWORD8 *pu1_src,
                                        UWORD8 *pu1_dst,
                                        WORD32 src_strd,
                                        WORD32 dst_strd,
                                        WORD8 *pi1_coeff,
                                        WORD32 ht,
                                        WORD32 wd)
{
    WORD32 row, col;

    __m128i coeff0_1_8x16b, coeff2_3_8x16b, control_mask_1_8x16b, control_mask_2_8x16b, offset_8x16b, mask_low_32b, mask_high_96b;
    __m128i src_temp1_16x8b, src_temp2_16x8b, src_temp3_16x8b, src_temp4_16x8b, src_temp5_16x8b, src_temp6_16x8b;
    __m128i src_temp11_16x8b, src_temp12_16x8b, src_temp13_16x8b, src_temp14_16x8b, src_temp15_16x8b, src_temp16_16x8b;
    __m128i res_temp1_8x16b, res_temp2_8x16b, res_temp3_8x16b, res_temp4_8x16b, res_temp5_8x16b, res_temp6_8x16b, res_temp7_8x16b;
    __m128i res_temp11_8x16b, res_temp12_8x16b, res_temp13_8x16b, res_temp14_8x16b, res_temp15_8x16b, res_temp16_8x16b, res_temp17_8x16b;

    PREFETCH((char const *)(pu1_src + (0 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (1 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (2 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (3 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)

    ASSERT(wd % 2 == 0); /* checking assumption*/

/* loading four 8-bit coefficients  */
    src_temp1_16x8b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    offset_8x16b = _mm_set1_epi16(OFFSET_14_MINUS_BIT_DEPTH); /* for offset addition */
    mask_low_32b = _mm_cmpeq_epi16(offset_8x16b, offset_8x16b);
    mask_high_96b = _mm_srli_si128(mask_low_32b, 12);
    mask_low_32b = _mm_slli_si128(mask_low_32b, 4);

    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_2_8x16b);  /* pi1_coeff[4] */

/*  outer for loop starts from here */
    if(wd % 2 == 0 && wd % 4 != 0)
    {

        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;

            PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


            for(col = 0; col < 2 * wd; col += 4)
            {


                /*load 16 pixel values from row 0*/
                src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*load 16 pixel values from row 1*/
                src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + src_strd + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*Derive the source pixels for processing the 2nd pixel*/
                src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);

                src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b);

                /*Derive the source pixels for processing the 3rd pixel*/
                src_temp3_16x8b = _mm_srli_si128(src_temp1_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel*/
                src_temp4_16x8b = _mm_srli_si128(src_temp1_16x8b, 6);

                src_temp6_16x8b = _mm_unpacklo_epi8(src_temp3_16x8b, src_temp4_16x8b);

                /*Derive the source pixels for processing the 2nd pixel*/
                src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);

                src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b);

                /*Derive the source pixels for processing the 3rd pixel*/
                src_temp13_16x8b = _mm_srli_si128(src_temp11_16x8b, 4);
                /*Derive the source pixels for processing the 4th pixel*/
                src_temp14_16x8b = _mm_srli_si128(src_temp11_16x8b, 6);

                src_temp16_16x8b = _mm_unpacklo_epi8(src_temp13_16x8b, src_temp14_16x8b);

                res_temp1_8x16b = _mm_unpacklo_epi64(src_temp5_16x8b, src_temp15_16x8b);
                res_temp2_8x16b = _mm_unpacklo_epi64(src_temp6_16x8b, src_temp16_16x8b);
                res_temp11_8x16b = _mm_maddubs_epi16(res_temp1_8x16b, coeff0_1_8x16b);
                res_temp12_8x16b = _mm_maddubs_epi16(res_temp2_8x16b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp13_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);

                res_temp14_8x16b = _mm_adds_epi16(res_temp13_8x16b, offset_8x16b);             /* row = 0 */
                res_temp15_8x16b = _mm_srai_epi16(res_temp14_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                res_temp13_8x16b = _mm_packus_epi16(res_temp15_8x16b, res_temp15_8x16b);       /* row = 0 */

                res_temp3_8x16b = _mm_srli_si128(res_temp13_8x16b, 4);

                res_temp4_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + offset));
                res_temp5_8x16b =  _mm_and_si128(res_temp4_8x16b, mask_low_32b);
                res_temp6_8x16b =  _mm_and_si128(res_temp13_8x16b, mask_high_96b);
                res_temp7_8x16b = _mm_or_si128(res_temp5_8x16b, res_temp6_8x16b);

                /* store 4 16-bit values */
                _mm_storel_epi64((__m128i *)(pu1_dst + offset), res_temp7_8x16b); /* pu1_dst[col] = i2_tmp_u  */

                res_temp14_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd + offset));
                res_temp15_8x16b =  _mm_and_si128(res_temp14_8x16b, mask_low_32b);
                res_temp16_8x16b =  _mm_and_si128(res_temp3_8x16b, mask_high_96b);
                res_temp17_8x16b = _mm_or_si128(res_temp15_8x16b, res_temp16_8x16b);

                /* store 4 16-bit values */
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd + offset), res_temp17_8x16b); /* pu1_dst[col] = i2_tmp_u  */


                offset += 4; /* To pointer update*/

            } /* inner loop ends here(8- output values in single iteration)*/

            pu1_src += 2 * src_strd; /*pointer update*/
            pu1_dst += 2 * dst_strd; /*pointer update*/
        }
    }
    else
    {

        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;

            PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


            for(col = 0; col < 2 * wd; col += 8)
            {

                /*load 16 pixel values from row 0*/
                src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*load 16 pixel values from row 1*/
                src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + src_strd + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*Derive the source pixels for processing the 2nd pixel*/
                src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);

                src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b);

                /*Derive the source pixels for processing the 3rd pixel*/
                src_temp3_16x8b = _mm_srli_si128(src_temp1_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel*/
                src_temp4_16x8b = _mm_srli_si128(src_temp1_16x8b, 6);

                src_temp6_16x8b = _mm_unpacklo_epi8(src_temp3_16x8b, src_temp4_16x8b);

                res_temp1_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff0_1_8x16b);
                res_temp2_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp3_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);

                res_temp4_8x16b = _mm_adds_epi16(res_temp3_8x16b, offset_8x16b);             /* row = 0 */
                res_temp5_8x16b = _mm_srai_epi16(res_temp4_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                res_temp6_8x16b = _mm_packus_epi16(res_temp5_8x16b, res_temp5_8x16b);        /* row = 0 */

                /* store 4 16-bit values */
                _mm_storel_epi64((__m128i *)(pu1_dst + offset), res_temp6_8x16b); /* pi2_dst[col] = i2_tmp_u  */

                /*Derive the source pixels for processing the 2nd pixel of row 1*/
                src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);

                src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b);

                /*Derive the source pixels for processing the 3rd pixel of row 1*/
                src_temp13_16x8b = _mm_srli_si128(src_temp11_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel of row 1*/
                src_temp14_16x8b = _mm_srli_si128(src_temp11_16x8b, 6);

                src_temp16_16x8b = _mm_unpacklo_epi8(src_temp13_16x8b, src_temp14_16x8b);

                res_temp11_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff0_1_8x16b);
                res_temp12_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp13_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);

                res_temp14_8x16b = _mm_adds_epi16(res_temp13_8x16b, offset_8x16b);             /* row = 0 */
                res_temp15_8x16b = _mm_srai_epi16(res_temp14_8x16b, SHIFT_14_MINUS_BIT_DEPTH); /* row = 0 */
                res_temp16_8x16b = _mm_packus_epi16(res_temp15_8x16b, res_temp15_8x16b);       /* row = 0 */

                /* store 4 16-bit values */
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd + offset), res_temp16_8x16b); /* pu1_dst[col] = i2_tmp_u  */


                offset += 8; /* To pointer update*/

            } /* inner loop ends here(8- output values in single iteration)*/

            pu1_src += 2 * src_strd; /*pointer update*/
            pu1_dst += 2 * dst_strd; /*pointer update*/
        }
    }
}

/**
*******************************************************************************
*
* @brief
*     Chroma interprediction filter for vertical input
*
* @par Description:
*    Applies a vertcal filter with coefficients pointed to  by 'pi1_coeff' to
*    the elements pointed by 'pu1_src' and  writes to the location pointed by
*    'pu1_dst'  The output is downshifted by 6 and clipped to 8 bits
*
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_chroma_vert_ssse3(UWORD8 *pu1_src,
                                        UWORD8 *pu1_dst,
                                        WORD32 src_strd,
                                        WORD32 dst_strd,
                                        WORD8 *pi1_coeff,
                                        WORD32 ht,
                                        WORD32 wd)
{
    WORD32 row, col;
    UWORD8 *pu1_src_copy;
    UWORD8 *pu1_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b;
    __m128i s4_8x16b, s5_8x16b, s6_8x16b, s7_8x16b, s8_8x16b, s9_8x16b;
    __m128i control_mask_1_8x16b, control_mask_2_8x16b;
    __m128i s11_8x16b, s12_8x16b, s15_8x16b, s16_8x16b;
    __m128i zero_8x16b, offset_8x16b, mask_low_32b, mask_high_96b;
    __m128i s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b;
    __m128i s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b;

    PREFETCH((char const *)(pu1_src + (0 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (1 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (2 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (3 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)

/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_2_8x16b);  /* pi1_coeff[4] */


/*  seting  values in register */
    zero_8x16b = _mm_setzero_si128(); /* for saturated clipping */
    offset_8x16b = _mm_set1_epi16(OFFSET_14_MINUS_BIT_DEPTH); /* for offset addition */
    mask_low_32b = _mm_set_epi32(0xFFFFFFFF, 0xFFFFFFFF, 0xFFFFFFFF, 0x00000000);
    mask_high_96b = _mm_set_epi32(0x00000000, 0x00000000, 0x00000000, 0xFFFFFFFF);

/*  outer for loop starts from here */
    if(wd % 8 == 0)
    { /* wd = multiple of 8 case */

        pu1_src_copy = pu1_src;
        pu1_dst_copy = pu1_dst;

        for(col = 0; col < 2 * wd; col += 16)
        {

            pu1_src = pu1_src_copy + col;
            pu1_dst = pu1_dst_copy + col;


            for(row = 0; row < ht; row += 2)
            {

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                /*load 8 pixel values from -751:-768 pos. relative to cur. pos.*/
                s21_8x16b  = _mm_loadu_si128((__m128i *)(pu1_src + (-1 * src_strd)));

                /*load 8 pixel values from -495:-512 pos. relative to cur. pos.*/
                s22_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (0 * src_strd)));


                /*load 8 pixel values from -239:-256 pos. relative to cur. pos.*/
                s23_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (1 * src_strd)));

                /*load 8 pixel values from 15:0 pos. relative to cur. pos.*/
                s24_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (2 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s21_8x16b, s22_8x16b);

                s31_8x16b = _mm_unpackhi_epi8(s21_8x16b, s22_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s23_8x16b, s24_8x16b);

                s33_8x16b = _mm_unpackhi_epi8(s23_8x16b, s24_8x16b);

                s11_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_maddubs_epi16(s31_8x16b, coeff0_1_8x16b);

                s12_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_maddubs_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi16(s32_8x16b, s34_8x16b);

                s5_8x16b = _mm_add_epi16(s8_8x16b, offset_8x16b);

                s31_8x16b = _mm_add_epi16(s35_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi16(s5_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s32_8x16b = _mm_srai_epi16(s31_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s6_8x16b, zero_8x16b);

                s33_8x16b =  _mm_packus_epi16(s32_8x16b, zero_8x16b);

                s7_8x16b = _mm_unpacklo_epi64(s7_8x16b, s33_8x16b);
/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storeu_si128((__m128i *)(pu1_dst), s7_8x16b);


                s25_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s22_8x16b, s23_8x16b);

                s31_8x16b = _mm_unpackhi_epi8(s22_8x16b, s23_8x16b);

                s15_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_maddubs_epi16(s31_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s24_8x16b, s25_8x16b);

                s33_8x16b = _mm_unpackhi_epi8(s24_8x16b, s25_8x16b);

                s16_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_maddubs_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi16(s32_8x16b, s34_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s5_8x16b = _mm_add_epi16(s8_8x16b, offset_8x16b);

                s31_8x16b = _mm_add_epi16(s35_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi16(s5_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s32_8x16b = _mm_srai_epi16(s31_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s6_8x16b, zero_8x16b);

                s33_8x16b =  _mm_packus_epi16(s32_8x16b, zero_8x16b);

                s7_8x16b = _mm_unpacklo_epi64(s7_8x16b, s33_8x16b);
/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storeu_si128((__m128i *)(pu1_dst + dst_strd), s7_8x16b);

                pu1_src += 2 * src_strd;
                pu1_dst += 2 * dst_strd;


            } /* inner for loop ends here(8-output values in single iteration) */

        }
    }
    else if(wd % 4 == 0)
    { /* wd = multiple of 8 case */

        for(row = 0; row < ht; row += 2)
        {
            pu1_src_copy = pu1_src;
            pu1_dst_copy = pu1_dst;
            for(col = 0; col < 2 * wd; col += 8)
            {

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                /*load 8 pixel values from -751:-768 pos. relative to cur. pos.*/
                s21_8x16b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

                /*load 8 pixel values from -495:-512 pos. relative to cur. pos.*/
                s22_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s21_8x16b, s22_8x16b);

                s11_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                /*load 8 pixel values from -239:-256 pos. relative to cur. pos.*/
                s23_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

                /*load 8 pixel values from 15:0 pos. relative to cur. pos.*/
                s24_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                s6_8x16b = _mm_unpacklo_epi8(s23_8x16b, s24_8x16b);

                s12_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s5_8x16b = _mm_add_epi16(s8_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi16(s5_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s6_8x16b, zero_8x16b);

/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst), s7_8x16b);

                s25_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s22_8x16b, s23_8x16b);
                s15_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s24_8x16b, s25_8x16b);
                s16_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s5_8x16b = _mm_add_epi16(s8_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi16(s5_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s6_8x16b, zero_8x16b);

/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd), s7_8x16b);

                pu1_src += 8;    /* To pointer update */
                pu1_dst += 8;

            } /* inner for loop ends here(8-output values in single iteration) */

            pu1_src = pu1_src_copy + 2 * src_strd; /* pointer update */
            pu1_dst = pu1_dst_copy + 2 * dst_strd; /* pointer update */
        }
    }

    else
    { /* wd = multiple of 4 case */

        for(row = 0; row < ht; row += 2)
        {
            pu1_src_copy = pu1_src;
            pu1_dst_copy = pu1_dst;
            for(col = 0; col < 2 * wd; col += 4)
            {

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                /*load 8 pixel values from -751:-768 pos. relative to cur. pos.*/
                s21_8x16b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

                /*load 8 pixel values from -495:-512 pos. relative to cur. pos.*/
                s22_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s21_8x16b, s22_8x16b);

                s11_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                /*load 8 pixel values from -239:-256 pos. relative to cur. pos.*/
                s23_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

                /*load 8 pixel values from 15:0 pos. relative to cur. pos.*/
                s24_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                s6_8x16b = _mm_unpacklo_epi8(s23_8x16b, s24_8x16b);

                s12_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s5_8x16b = _mm_add_epi16(s8_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi16(s5_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s6_8x16b, zero_8x16b);

                s9_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst));
                s5_8x16b =  _mm_and_si128(s9_8x16b, mask_low_32b);
                s6_8x16b =  _mm_and_si128(s7_8x16b, mask_high_96b);
                s9_8x16b = _mm_or_si128(s5_8x16b, s6_8x16b);

/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst), s9_8x16b);

                s25_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s22_8x16b, s23_8x16b);
                s15_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s24_8x16b, s25_8x16b);
                s16_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s5_8x16b = _mm_add_epi16(s8_8x16b, offset_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi16(s5_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s6_8x16b, zero_8x16b);

                s9_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd));
                s5_8x16b =  _mm_and_si128(s9_8x16b, mask_low_32b);
                s6_8x16b =  _mm_and_si128(s7_8x16b, mask_high_96b);
                s9_8x16b = _mm_or_si128(s5_8x16b, s6_8x16b);

/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd), s9_8x16b);

                pu1_src += 4;   /* To pointer update */
                pu1_dst += 4;
            } /* inner for loop ends here(8-output values in single iteration) */

            pu1_src = pu1_src_copy + 2 * src_strd; /* pointer update */
            pu1_dst = pu1_dst_copy + 2 * dst_strd; /* pointer update */
        }
    }
}

/**
*******************************************************************************
*
* @brief
*       chroma interprediction filter for copying 16bit output
*
* @par Description:
*    Copies the array of width 'wd' and height 'ht' from the  location pointed
*    by 'src' to the location pointed by 'dst' The output is upshifted by 6
*    bits and is used as input for vertical filtering or weighted prediction
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/

void ihevc_inter_pred_chroma_copy_w16out_ssse3(UWORD8 *pu1_src,
                                               WORD16 *pi2_dst,
                                               WORD32 src_strd,
                                               WORD32 dst_strd,
                                               WORD8 *pi1_coeff,
                                               WORD32 ht,
                                               WORD32 wd)
{
    WORD32 row, col;
    __m128i  s3, zero_8x16b;

    ASSERT(wd % 2 == 0); /* checking assumption*/
    ASSERT(ht % 2 == 0); /* checking assumption*/

    UNUSED(pi1_coeff);
    zero_8x16b = _mm_setzero_si128();
/*  outer for loop starts from here */
    if(wd == 2) /* for wd =2 */
    {
        for(row = 0; row < ht; row += 2)
        {
            int offset = 0;
            for(col = 0; col < 2 * wd; col += 4)
            {
/* row =0 */
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col] */
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */

                /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */
                _mm_storel_epi64((__m128i *)(pi2_dst + offset), s3);

/* row =1 */
                /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset));
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */

                _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd + offset), s3);
                offset += 4; /* To pointer update */
            } /* inner for loop ends here */

            pu1_src += 2 * src_strd; /* pointer update */
            pi2_dst += 2 * dst_strd; /* pointer update */
        }
    }
    else if(wd % 2 == 0 && wd % 4 != 0)
    {
        for(row = 0; row < ht / 2; row++)
        {
            int offset = 0;
            int count = (2 * wd) / 8;
            for(col = 0; col < count; col++)
            {
/* row =0 */
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col]*/
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */
                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH);

                /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH); */
                _mm_storeu_si128((__m128i *)(pi2_dst + offset), s3);

                /*row=1*/       /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset));
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */
                _mm_storeu_si128((__m128i *)(pi2_dst + dst_strd + offset), s3);

                offset += 8; /* To pointer update*/
            } /*  inner for loop ends here(8-output values in single iteration) */

/* finding last four values */
            s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col] */
            s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

            s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */

            /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */
            _mm_storel_epi64((__m128i *)(pi2_dst + offset), s3);

            /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
            s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset));
            s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

            s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */
            _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd + offset), s3);

            pu1_src += 2 * src_strd; /* pointer update */
            pi2_dst += 2 * dst_strd;
        }
    }
    else
    {
        for(row = 0; row < ht / 2; row++)
        {
            int offset = 0;
            for(col = 0; col < 2 * wd / 8; col++)
            {
/* row =0 */
                /*load 16 pixel values from 15:0 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + offset)); /* pu1_src[col]*/
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */
                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH);

                /* pi2_dst[col] = (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH); */
                _mm_storeu_si128((__m128i *)(pi2_dst + offset), s3);

                /*row=1*/       /*load 16 pixel values from 271:256 pos. relative to cur. pos.*/
                s3 = _mm_loadu_si128((__m128i *)(pu1_src + src_strd + offset));
                s3 = _mm_unpacklo_epi8(s3, zero_8x16b);

                s3 = _mm_slli_epi16(s3,  SHIFT_14_MINUS_BIT_DEPTH); /* (pu1_src[col] << SHIFT_14_MINUS_BIT_DEPTH) */
                _mm_store_si128((__m128i *)(pi2_dst + dst_strd + offset), s3);

                offset += 8; /* To pointer update*/
            } /*  inner for loop ends here(8-output values in single iteration) */

            pu1_src += 2 * src_strd; /* pointer update */
            pi2_dst += 2 * dst_strd;
        }
    }
}

/**
*******************************************************************************
*
* @brief
*       chroma interprediction filter to store horizontal 16bit ouput
*
* @par Description:
*    Applies a horizontal filter with coefficients pointed to  by 'pi1_coeff'
*    to the elements pointed by 'pu1_src' and  writes to the location pointed
*    by 'pu1_dst'  No downshifting or clipping is done and the output is  used
*    as an input for vertical filtering or weighted  prediction
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_chroma_horz_w16out_ssse3(UWORD8 *pu1_src,
                                               WORD16 *pi2_dst,
                                               WORD32 src_strd,
                                               WORD32 dst_strd,
                                               WORD8 *pi1_coeff,
                                               WORD32 ht,
                                               WORD32 wd)
{
    WORD32 row, col;

    __m128i coeff0_1_8x16b, coeff2_3_8x16b, control_mask_1_8x16b, control_mask_2_8x16b, all_zero;
    __m128i src_temp1_16x8b, src_temp2_16x8b, src_temp3_16x8b, src_temp4_16x8b, src_temp5_16x8b, src_temp6_16x8b;
    __m128i src_temp11_16x8b, src_temp12_16x8b, src_temp13_16x8b, src_temp14_16x8b, src_temp15_16x8b, src_temp16_16x8b;
    __m128i res_temp1_8x16b, res_temp2_8x16b, res_temp3_8x16b;
    __m128i res_temp11_8x16b, res_temp12_8x16b, res_temp13_8x16b;

    PREFETCH((char const *)(pu1_src + (0 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (1 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (2 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (3 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)

    ASSERT(wd % 2 == 0); /* checking assumption*/

/* loading four 8-bit coefficients and convert 8-bit into 16-bit */
    src_temp1_16x8b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    all_zero = _mm_setzero_si128();

    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(src_temp1_16x8b, control_mask_2_8x16b);  /* pi1_coeff[4] */

/*  outer for loop starts from here */
    if(wd % 2 == 0 && wd % 4 != 0)
    {
        int offset = 0;
        for(row = ht; row >= 2; row -= 2)
        {
            offset = 0;
            PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


            for(col = 0; col < 2 * wd; col += 4)
            {

                /*load 16 pixel values of row 0*/
                src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*load 16 pixel values of row 1*/
                src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + src_strd + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*Derive the source pixels for processing the 2nd pixel of row 0*/
                src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);

                src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b);

                /*Derive the source pixels for processing the 3rd pixel of row 0*/
                src_temp3_16x8b = _mm_srli_si128(src_temp1_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel of row 0*/
                src_temp4_16x8b = _mm_srli_si128(src_temp1_16x8b, 6);

                src_temp6_16x8b = _mm_unpacklo_epi8(src_temp3_16x8b, src_temp4_16x8b);

                /*Derive the source pixels for processing the 2nd pixel of row 1*/
                src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);

                src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b);

                /*Derive the source pixels for processing the 3rd pixel of row 1*/
                src_temp13_16x8b = _mm_srli_si128(src_temp11_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel of row 1*/
                src_temp14_16x8b = _mm_srli_si128(src_temp11_16x8b, 6);

                src_temp16_16x8b = _mm_unpacklo_epi8(src_temp13_16x8b, src_temp14_16x8b);

                res_temp1_8x16b = _mm_unpacklo_epi64(src_temp5_16x8b, src_temp15_16x8b);
                res_temp2_8x16b = _mm_unpacklo_epi64(src_temp6_16x8b, src_temp16_16x8b);
                res_temp11_8x16b = _mm_maddubs_epi16(res_temp1_8x16b, coeff0_1_8x16b);
                res_temp12_8x16b = _mm_maddubs_epi16(res_temp2_8x16b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp13_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);

                res_temp3_8x16b = _mm_srli_si128(res_temp13_8x16b, 8);

                /* store 4 16-bit values */
                _mm_storel_epi64((__m128i *)(pi2_dst + offset), res_temp13_8x16b); /* pi2_dst[col] = i2_tmp_u  */


                /* store 4 16-bit values */
                _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd + offset), res_temp3_8x16b); /* pi2_dst[col] = i2_tmp_u  */


                offset += 4; /* To pointer update*/

            } /* inner loop ends here(8- output values in single iteration)*/

            pu1_src += 2 * src_strd; /*pointer update*/
            pi2_dst += 2 * dst_strd; /*pointer update*/
        }

        /*Epilogue to handle ht= odd case*/
        if(row)
        {
            offset = 0;
            for(col = 0; col < 2 * wd; col += 4)
            {

                /*load 16 pixel values of row 0*/
                src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*Derive the source pixels for processing the 2nd pixel of row 0*/
                src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);

                src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b);

                /*Derive the source pixels for processing the 3rd pixel of row 0*/
                src_temp3_16x8b = _mm_srli_si128(src_temp1_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel of row 0*/
                src_temp4_16x8b = _mm_srli_si128(src_temp1_16x8b, 6);

                src_temp6_16x8b = _mm_unpacklo_epi8(src_temp3_16x8b, src_temp4_16x8b);

                res_temp1_8x16b = _mm_unpacklo_epi64(src_temp5_16x8b, all_zero);
                res_temp2_8x16b = _mm_unpacklo_epi64(src_temp6_16x8b, all_zero);
                res_temp11_8x16b = _mm_maddubs_epi16(res_temp1_8x16b, coeff0_1_8x16b);
                res_temp12_8x16b = _mm_maddubs_epi16(res_temp2_8x16b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp13_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);

                //res_temp3_8x16b = _mm_srli_si128 (res_temp13_8x16b, 8);

                /* store 4 16-bit values */
                _mm_storel_epi64((__m128i *)(pi2_dst + offset), res_temp13_8x16b); /* pi2_dst[col] = i2_tmp_u  */

                offset += 4; /* To pointer update*/

            }
        }

    }
    else
    {
        int offset = 0;

        for(row = ht; row >= 2; row -= 2)
        {
            offset = 0;
            PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
            PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


            for(col = 0; col < 2 * wd; col += 8)
            {

                /*load 16 pixel values of row 0*/
                src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*load 16 pixel values of row 1*/
                src_temp11_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + src_strd + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*Derive the source pixels for processing the 2nd pixel of row 0*/
                src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);

                src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b);

                /*Derive the source pixels for processing the 3rd pixel of row 0*/
                src_temp3_16x8b = _mm_srli_si128(src_temp1_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel of row 0*/
                src_temp4_16x8b = _mm_srli_si128(src_temp1_16x8b, 6);

                src_temp6_16x8b = _mm_unpacklo_epi8(src_temp3_16x8b, src_temp4_16x8b);

                res_temp1_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff0_1_8x16b);
                res_temp2_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp3_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);

                /* store 8 16-bit values */
                _mm_storeu_si128((__m128i *)(pi2_dst + offset), res_temp3_8x16b); /* pi2_dst[col] = i2_tmp_u  */

                /*Derive the source pixels for processing the 2nd pixel of row 1*/
                src_temp12_16x8b = _mm_srli_si128(src_temp11_16x8b, 2);

                src_temp15_16x8b = _mm_unpacklo_epi8(src_temp11_16x8b, src_temp12_16x8b);

                /*Derive the source pixels for processing the 3rd pixel of row 1*/
                src_temp13_16x8b = _mm_srli_si128(src_temp11_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel of row 1*/
                src_temp14_16x8b = _mm_srli_si128(src_temp11_16x8b, 6);

                src_temp16_16x8b = _mm_unpacklo_epi8(src_temp13_16x8b, src_temp14_16x8b);

                res_temp11_8x16b = _mm_maddubs_epi16(src_temp15_16x8b, coeff0_1_8x16b);
                res_temp12_8x16b = _mm_maddubs_epi16(src_temp16_16x8b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp13_8x16b = _mm_add_epi16(res_temp11_8x16b, res_temp12_8x16b);

                /* store 8 16-bit values */
                _mm_storeu_si128((__m128i *)(pi2_dst + dst_strd + offset), res_temp13_8x16b); /* pi2_dst[col] = i2_tmp_u  */


                offset += 8; /* To pointer update*/

            } /* inner loop ends here(8- output values in single iteration)*/

            pu1_src += 2 * src_strd; /*pointer update*/
            pi2_dst += 2 * dst_strd; /*pointer update*/
        }

        /*Epilogue to take care of odd ht*/
        if(row)
        {
            offset = 0;
            for(col = 0; col < 2 * wd; col += 8)
            {

                /*load 16 pixel values of row 0*/
                src_temp1_16x8b = _mm_loadu_si128((__m128i *)(pu1_src - 2 + offset)); /* pu1_src[col + (i-1) * 2]*/

                /*Derive the source pixels for processing the 2nd pixel of row 0*/
                src_temp2_16x8b = _mm_srli_si128(src_temp1_16x8b, 2);

                src_temp5_16x8b = _mm_unpacklo_epi8(src_temp1_16x8b, src_temp2_16x8b);

                /*Derive the source pixels for processing the 3rd pixel of row 0*/
                src_temp3_16x8b = _mm_srli_si128(src_temp1_16x8b, 4);

                /*Derive the source pixels for processing the 4th pixel of row 0*/
                src_temp4_16x8b = _mm_srli_si128(src_temp1_16x8b, 6);

                src_temp6_16x8b = _mm_unpacklo_epi8(src_temp3_16x8b, src_temp4_16x8b);

                res_temp1_8x16b = _mm_maddubs_epi16(src_temp5_16x8b, coeff0_1_8x16b);
                res_temp2_8x16b = _mm_maddubs_epi16(src_temp6_16x8b, coeff2_3_8x16b);

                /* i4_tmp += pi1_coeff[i] * pi2_src[col + (i-1) * 2] */
                res_temp3_8x16b = _mm_add_epi16(res_temp1_8x16b, res_temp2_8x16b);

                /* store 8 16-bit values */
                _mm_storeu_si128((__m128i *)(pi2_dst + offset), res_temp3_8x16b); /* pi2_dst[col] = i2_tmp_u  */

                offset += 8; /* To pointer update*/

            }
        }

    }
}

/**
*******************************************************************************
*
* @brief
*     Interprediction chroma filter to store vertical 16bit ouput
*
* @par Description:
*    Applies a vertical filter with coefficients pointed to  by 'pi1_coeff' to
*    the elements pointed by 'pu1_src' and  writes to the location pointed by
*    'pu1_dst'  No downshifting or clipping is done and the output is  used as
*    an input for weighted prediction
*
* @param[in] pu1_src
*  UWORD8 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_chroma_vert_w16out_ssse3(UWORD8 *pu1_src,
                                               WORD16 *pi2_dst,
                                               WORD32 src_strd,
                                               WORD32 dst_strd,
                                               WORD8 *pi1_coeff,
                                               WORD32 ht,
                                               WORD32 wd)
{
    WORD32 row, col;
    UWORD8 *pu1_src_copy;
    WORD16 *pi2_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b;
    __m128i s4_8x16b, s5_8x16b, s6_8x16b, s8_8x16b;
    __m128i control_mask_1_8x16b, control_mask_2_8x16b;
    __m128i s11_8x16b, s12_8x16b, s15_8x16b, s16_8x16b;
    __m128i s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b;
    __m128i s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b;


    PREFETCH((char const *)(pu1_src + (0 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (1 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (2 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (3 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (4 * src_strd)), _MM_HINT_T0)
    PREFETCH((char const *)(pu1_src + (5 * src_strd)), _MM_HINT_T0)

/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    control_mask_1_8x16b = _mm_set1_epi32(0x01000100); /* Control Mask register */
    control_mask_2_8x16b = _mm_set1_epi32(0x03020302); /* Control Mask register */

    coeff0_1_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_1_8x16b);  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi8(s4_8x16b, control_mask_2_8x16b);  /* pi1_coeff[4] */


/*  outer for loop starts from here */
    if(wd % 8 == 0)
    { /* wd = multiple of 8 case */

        pu1_src_copy = pu1_src;
        pi2_dst_copy = pi2_dst;

        for(col = 0; col < 2 * wd; col += 16)
        {

            pu1_src = pu1_src_copy + col;
            pi2_dst = pi2_dst_copy + col;


            for(row = 0; row < ht; row += 2)
            {

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                /*load 16 pixel values */
                s21_8x16b  = _mm_loadu_si128((__m128i *)(pu1_src + (-1 * src_strd)));

                /*load 16 pixel values */
                s22_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (0 * src_strd)));


                /*load 16 pixel values */
                s23_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (1 * src_strd)));

                /*load 16 pixel values */
                s24_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (2 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s21_8x16b, s22_8x16b);

                s31_8x16b = _mm_unpackhi_epi8(s21_8x16b, s22_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s23_8x16b, s24_8x16b);

                s33_8x16b = _mm_unpackhi_epi8(s23_8x16b, s24_8x16b);

                s11_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_maddubs_epi16(s31_8x16b, coeff0_1_8x16b);

                s12_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_maddubs_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi16(s32_8x16b, s34_8x16b);

/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_storeu_si128((__m128i *)(pi2_dst), s8_8x16b);

                _mm_storeu_si128((__m128i *)(pi2_dst + 8), s35_8x16b);


                s25_8x16b = _mm_loadu_si128((__m128i *)(pu1_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s22_8x16b, s23_8x16b);

                s31_8x16b = _mm_unpackhi_epi8(s22_8x16b, s23_8x16b);

                s15_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_maddubs_epi16(s31_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s24_8x16b, s25_8x16b);

                s33_8x16b = _mm_unpackhi_epi8(s24_8x16b, s25_8x16b);

                s16_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_maddubs_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi16(s32_8x16b, s34_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_store_si128((__m128i *)(pi2_dst + dst_strd), s8_8x16b);

                _mm_store_si128((__m128i *)(pi2_dst + dst_strd + 8), s35_8x16b);


                pu1_src += 2 * src_strd;
                pi2_dst += 2 * dst_strd;


            } /* inner for loop ends here(8-output values in single iteration) */

        }
    }

    else if(wd % 4 == 0)
    { /* wd = multiple of 8 case */

        for(row = 0; row < ht; row += 2)
        {

            pu1_src_copy = pu1_src;
            pi2_dst_copy = pi2_dst;

            for(col = 0; col < 2 * wd; col += 8)
            {

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                /*load 8 pixel values */
                s21_8x16b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

                /*load 8 pixel values */
                s22_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s21_8x16b, s22_8x16b);

                s11_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                /*load 8 pixel values */
                s23_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

                /*load 8 pixel values */
                s24_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                s6_8x16b = _mm_unpacklo_epi8(s23_8x16b, s24_8x16b);

                s12_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                _mm_storeu_si128((__m128i *)(pi2_dst), s8_8x16b);

                s25_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s22_8x16b, s23_8x16b);
                s15_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s24_8x16b, s25_8x16b);
                s16_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                _mm_store_si128((__m128i *)(pi2_dst + dst_strd), s8_8x16b);

                pu1_src += 8;    /* To pointer update */
                pi2_dst += 8;

            } /* inner for loop ends here(8-output values in single iteration) */

            pu1_src = pu1_src_copy + 2 * src_strd; /* pointer update */
            pi2_dst = pi2_dst_copy + 2 * dst_strd; /* pointer update */
        }
    }

    else
    { /* wd = multiple of 4 case */

        for(row = 0; row < ht; row += 2)
        {
            pu1_src_copy = pu1_src;
            pi2_dst_copy = pi2_dst;
            for(col = 0; col < 2 * wd; col += 4)
            {

                PREFETCH((char const *)(pu1_src + (6 * src_strd)), _MM_HINT_T0)
                PREFETCH((char const *)(pu1_src + (7 * src_strd)), _MM_HINT_T0)


                /*load 8 pixel values */
                s21_8x16b  = _mm_loadl_epi64((__m128i *)(pu1_src + (-1 * src_strd)));

                /*load 8 pixel values */
                s22_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (0 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s21_8x16b, s22_8x16b);

                s11_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                /*load 8 pixel values */
                s23_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (1 * src_strd)));

                /*load 8 pixel values */
                s24_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (2 * src_strd)));

                s6_8x16b = _mm_unpacklo_epi8(s23_8x16b, s24_8x16b);

                s12_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */


/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pi2_dst), s8_8x16b);

                s25_8x16b = _mm_loadl_epi64((__m128i *)(pu1_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi8(s22_8x16b, s23_8x16b);
                s15_8x16b = _mm_maddubs_epi16(s5_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi8(s24_8x16b, s25_8x16b);
                s16_8x16b = _mm_maddubs_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi16(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */


/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd), s8_8x16b);

                pu1_src += 4;   /* To pointer update */
                pi2_dst += 4;
            } /* inner for loop ends here(8-output values in single iteration) */

            pu1_src = pu1_src_copy + 2 * src_strd; /* pointer update */
            pi2_dst = pi2_dst_copy + 2 * dst_strd; /* pointer update */
        }
    }
}

/**
*******************************************************************************
*
* @brief
*     chroma interprediction filter for vertical 16bit input
*
* @par Description:
*    Applies a vertical filter with coefficients pointed to  by 'pi1_coeff' to
*    the elements pointed by 'pu1_src' and  writes to the location pointed by
*    'pu1_dst'  Input is 16 bits  The filter output is downshifted by 12 and
*    clipped to lie  between 0 and 255
*
* @param[in] pi2_src
*  WORD16 pointer to the source
*
* @param[out] pu1_dst
*  UWORD8 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_chroma_vert_w16inp_ssse3(WORD16 *pi2_src,
                                               UWORD8 *pu1_dst,
                                               WORD32 src_strd,
                                               WORD32 dst_strd,
                                               WORD8 *pi1_coeff,
                                               WORD32 ht,
                                               WORD32 wd)
{
    WORD32 row, col;
    WORD16 *pi2_src_copy;
    UWORD8 *pu1_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b;
    __m128i s4_8x16b, s5_8x16b, s6_8x16b, s7_8x16b, s8_8x16b, s9_8x16b;
    __m128i s11_8x16b, s12_8x16b, s15_8x16b, s16_8x16b;
    __m128i zero_8x16b, offset_8x16b, mask_low_32b, mask_high_96b, sign_reg;
    __m128i s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b;
    __m128i s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b;


/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    zero_8x16b = _mm_setzero_si128();
    sign_reg =  _mm_cmpgt_epi8(zero_8x16b, s4_8x16b);
    s5_8x16b  = _mm_unpacklo_epi8(s4_8x16b, sign_reg);

    coeff0_1_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(0, 0, 0, 0));  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(1, 1, 1, 1));  /* pi1_coeff[4] */

/*  seting  values in register */
    offset_8x16b = _mm_set1_epi32(OFFSET_14_MINUS_BIT_DEPTH); /* for offset addition */
    mask_low_32b = _mm_set_epi32(0xFFFFFFFF, 0xFFFFFFFF, 0xFFFFFFFF, 0x00000000);
    mask_high_96b = _mm_set_epi32(0x00000000, 0x00000000, 0x00000000, 0xFFFFFFFF);

/*  outer for loop starts from here */
    if(wd % 4 == 0)
    { /* wd = multiple of 8 case */

        pi2_src_copy = pi2_src;
        pu1_dst_copy = pu1_dst;

        for(col = 0; col < 2 * wd; col += 8)
        {

            pi2_src = pi2_src_copy + col;
            pu1_dst = pu1_dst_copy + col;


            for(row = 0; row < ht; row += 2)
            {

                /*load 16 pixel values */
                s21_8x16b  = _mm_load_si128((__m128i *)(pi2_src + (-1 * src_strd)));

                /*load 16 pixel values */
                s22_8x16b = _mm_load_si128((__m128i *)(pi2_src + (0 * src_strd)));


                /*load 16 pixel values */
                s23_8x16b = _mm_load_si128((__m128i *)(pi2_src + (1 * src_strd)));

                /*load 16 pixel values */
                s24_8x16b = _mm_load_si128((__m128i *)(pi2_src + (2 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s21_8x16b, s22_8x16b);

                s31_8x16b = _mm_unpackhi_epi16(s21_8x16b, s22_8x16b);

                s6_8x16b = _mm_unpacklo_epi16(s23_8x16b, s24_8x16b);

                s33_8x16b = _mm_unpackhi_epi16(s23_8x16b, s24_8x16b);

                s11_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_madd_epi16(s31_8x16b, coeff0_1_8x16b);

                s12_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_madd_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi32(s32_8x16b, s34_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s32_8x16b = _mm_srai_epi32(s35_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);


                /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
                s7_8x16b = _mm_add_epi32(s6_8x16b, offset_8x16b);

                /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s8_8x16b = _mm_srai_epi32(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s8_8x16b, zero_8x16b);

                /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
                s33_8x16b = _mm_add_epi32(s32_8x16b, offset_8x16b);

                /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s34_8x16b = _mm_srai_epi32(s33_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s35_8x16b = _mm_packs_epi32(s34_8x16b, zero_8x16b);


                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s9_8x16b, zero_8x16b);

                s33_8x16b =  _mm_packus_epi16(s35_8x16b, zero_8x16b);

                s7_8x16b = _mm_unpacklo_epi32(s7_8x16b, s33_8x16b);
/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst), s7_8x16b);


                s25_8x16b = _mm_load_si128((__m128i *)(pi2_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s22_8x16b, s23_8x16b);

                s31_8x16b = _mm_unpackhi_epi16(s22_8x16b, s23_8x16b);

                s15_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_madd_epi16(s31_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi16(s24_8x16b, s25_8x16b);

                s33_8x16b = _mm_unpackhi_epi16(s24_8x16b, s25_8x16b);

                s16_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_madd_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi32(s32_8x16b, s34_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s32_8x16b = _mm_srai_epi32(s35_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);


                /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
                s7_8x16b = _mm_add_epi32(s6_8x16b, offset_8x16b);

                /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s8_8x16b = _mm_srai_epi32(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s8_8x16b, zero_8x16b);

                /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
                s33_8x16b = _mm_add_epi32(s32_8x16b, offset_8x16b);

                /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s34_8x16b = _mm_srai_epi32(s33_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s35_8x16b = _mm_packs_epi32(s34_8x16b, zero_8x16b);


                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s9_8x16b, zero_8x16b);

                s33_8x16b =  _mm_packus_epi16(s35_8x16b, zero_8x16b);

                s7_8x16b = _mm_unpacklo_epi32(s7_8x16b, s33_8x16b);
/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd), s7_8x16b);

                pi2_src += 2 * src_strd;
                pu1_dst += 2 * dst_strd;


            } /* inner for loop ends here(8-output values in single iteration) */

        }
    }
    else
    { /* wd = multiple of 4 case */

        for(row = 0; row < ht; row += 2)
        {
            pi2_src_copy = pi2_src;
            pu1_dst_copy = pu1_dst;
            for(col = 0; col < 2 * wd; col += 4)
            {

                /*load 8 pixel values  */
                s21_8x16b  = _mm_loadl_epi64((__m128i *)(pi2_src + (-1 * src_strd)));

                /*load 8 pixel values */
                s22_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (0 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s21_8x16b, s22_8x16b);

                s11_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                /*load 8 pixel values */
                s23_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (1 * src_strd)));

                /*load 8 pixel values */
                s24_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (2 * src_strd)));

                s6_8x16b = _mm_unpacklo_epi16(s23_8x16b, s24_8x16b);

                s12_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */


                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);


                /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
                s7_8x16b = _mm_add_epi32(s6_8x16b, offset_8x16b);

                /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s8_8x16b = _mm_srai_epi32(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s8_8x16b, zero_8x16b);


                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s9_8x16b, zero_8x16b);

                s9_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst));
                s5_8x16b =  _mm_and_si128(s9_8x16b, mask_low_32b);
                s6_8x16b =  _mm_and_si128(s7_8x16b, mask_high_96b);
                s9_8x16b = _mm_or_si128(s5_8x16b, s6_8x16b);

/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst), s9_8x16b);

                s25_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s22_8x16b, s23_8x16b);
                s15_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi16(s24_8x16b, s25_8x16b);
                s16_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                /* (i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) */
                s7_8x16b = _mm_add_epi32(s6_8x16b, offset_8x16b);

                /* i4_tmp = ((i4_tmp >> SHIFT_14_MINUS_BIT_DEPTH) + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s8_8x16b = _mm_srai_epi32(s7_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s8_8x16b, zero_8x16b);

                /* i2_tmp = CLIP_U8(i2_tmp);*/
                s7_8x16b = _mm_packus_epi16(s9_8x16b, zero_8x16b);

                s9_8x16b = _mm_loadl_epi64((__m128i *)(pu1_dst + dst_strd));
                s5_8x16b =  _mm_and_si128(s9_8x16b, mask_low_32b);
                s6_8x16b =  _mm_and_si128(s7_8x16b, mask_high_96b);
                s9_8x16b = _mm_or_si128(s5_8x16b, s6_8x16b);

/* store 8 8-bit output values  */
                /* pu1_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pu1_dst + dst_strd), s9_8x16b);

                pi2_src += 4;   /* To pointer update */
                pu1_dst += 4;
            } /* inner for loop ends here(8-output values in single iteration) */

            pi2_src = pi2_src_copy + 2 * src_strd; /* pointer update */
            pu1_dst = pu1_dst_copy + 2 * dst_strd; /* pointer update */
        }
    }

}

/**
*******************************************************************************
*
* @brief
*
*      Chroma interprediction filter for 16bit vertical input and output.
*
* @par Description:
*       Applies a vertical filter with coefficients pointed to  by 'pi1_coeff' to
*       the elements pointed by 'pu1_src' and  writes to the location pointed by
*       'pu1_dst'  Input is 16 bits  The filter output is downshifted by 6 and
*       8192 is  subtracted to store it as a 16 bit number  The output is used as
*       a input to weighted prediction
*
* @param[in] pi2_src
*  WORD16 pointer to the source
*
* @param[out] pi2_dst
*  WORD16 pointer to the destination
*
* @param[in] src_strd
*  integer source stride
*
* @param[in] dst_strd
*  integer destination stride
*
* @param[in] pi1_coeff
*  WORD8 pointer to the filter coefficients
*
* @param[in] ht
*  integer height of the array
*
* @param[in] wd
*  integer width of the array
*
* @returns
*
* @remarks
*  None
*
*******************************************************************************
*/
void ihevc_inter_pred_chroma_vert_w16inp_w16out_ssse3(WORD16 *pi2_src,
                                                      WORD16 *pi2_dst,
                                                      WORD32 src_strd,
                                                      WORD32 dst_strd,
                                                      WORD8 *pi1_coeff,
                                                      WORD32 ht,
                                                      WORD32 wd)
{
    WORD32 row, col;
    WORD16 *pi2_src_copy;
    WORD16 *pi2_dst_copy;
    __m128i coeff0_1_8x16b, coeff2_3_8x16b;
    __m128i s4_8x16b, s5_8x16b, s6_8x16b, s7_8x16b, s8_8x16b, s9_8x16b;
    __m128i s11_8x16b, s12_8x16b, s15_8x16b, s16_8x16b;
    __m128i zero_8x16b, sign_reg;
    __m128i s21_8x16b, s22_8x16b, s23_8x16b, s24_8x16b, s25_8x16b;
    __m128i s31_8x16b, s32_8x16b, s33_8x16b, s34_8x16b, s35_8x16b;


/* load 8 8-bit coefficients and convert 8-bit into 16-bit  */
    s4_8x16b = _mm_loadl_epi64((__m128i *)pi1_coeff);

    zero_8x16b = _mm_setzero_si128();
    sign_reg =  _mm_cmpgt_epi8(zero_8x16b, s4_8x16b);
    s5_8x16b  = _mm_unpacklo_epi8(s4_8x16b, sign_reg);

    coeff0_1_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(0, 0, 0, 0));  /* pi1_coeff[4] */
    coeff2_3_8x16b = _mm_shuffle_epi32(s5_8x16b, _MM_SHUFFLE(1, 1, 1, 1));  /* pi1_coeff[4] */


/*  outer for loop starts from here */
    if(wd % 4 == 0)
    { /* wd = multiple of 8 case */

        pi2_src_copy = pi2_src;
        pi2_dst_copy = pi2_dst;

        for(col = 0; col < 2 * wd; col += 8)
        {

            pi2_src = pi2_src_copy + col;
            pi2_dst = pi2_dst_copy + col;


            for(row = 0; row < ht; row += 2)
            {

                /*load 16 pixel values */
                s21_8x16b  = _mm_load_si128((__m128i *)(pi2_src + (-1 * src_strd)));

                /*load 16 pixel values */
                s22_8x16b = _mm_load_si128((__m128i *)(pi2_src + (0 * src_strd)));


                /*load 16 pixel values */
                s23_8x16b = _mm_load_si128((__m128i *)(pi2_src + (1 * src_strd)));

                /*load 16 pixel values */
                s24_8x16b = _mm_load_si128((__m128i *)(pi2_src + (2 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s21_8x16b, s22_8x16b);

                s31_8x16b = _mm_unpackhi_epi16(s21_8x16b, s22_8x16b);

                s6_8x16b = _mm_unpacklo_epi16(s23_8x16b, s24_8x16b);

                s33_8x16b = _mm_unpackhi_epi16(s23_8x16b, s24_8x16b);

                s11_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_madd_epi16(s31_8x16b, coeff0_1_8x16b);

                s12_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_madd_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi32(s32_8x16b, s34_8x16b);

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s32_8x16b = _mm_srai_epi32(s35_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s6_8x16b, zero_8x16b);

                s35_8x16b = _mm_packs_epi32(s32_8x16b, zero_8x16b);

                s7_8x16b = _mm_unpacklo_epi64(s9_8x16b, s35_8x16b);
/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_store_si128((__m128i *)(pi2_dst), s7_8x16b);


                s25_8x16b = _mm_loadu_si128((__m128i *)(pi2_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s22_8x16b, s23_8x16b);

                s31_8x16b = _mm_unpackhi_epi16(s22_8x16b, s23_8x16b);

                s15_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                s32_8x16b = _mm_madd_epi16(s31_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi16(s24_8x16b, s25_8x16b);

                s33_8x16b = _mm_unpackhi_epi16(s24_8x16b, s25_8x16b);

                s16_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s34_8x16b = _mm_madd_epi16(s33_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                s35_8x16b = _mm_add_epi32(s32_8x16b, s34_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s32_8x16b = _mm_srai_epi32(s35_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s6_8x16b, zero_8x16b);

                s35_8x16b = _mm_packs_epi32(s32_8x16b, zero_8x16b);

                s7_8x16b = _mm_unpacklo_epi64(s9_8x16b, s35_8x16b);
/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_store_si128((__m128i *)(pi2_dst + dst_strd), s7_8x16b);

                pi2_src += 2 * src_strd;
                pi2_dst += 2 * dst_strd;


            } /* inner for loop ends here(8-output values in single iteration) */

        }
    }
    else
    { /* wd = multiple of 4 case */

        for(row = 0; row < ht; row += 2)
        {
            pi2_src_copy = pi2_src;
            pi2_dst_copy = pi2_dst;
            for(col = 0; col < 2 * wd; col += 4)
            {

                /*load 4 pixel values */
                s21_8x16b  = _mm_loadl_epi64((__m128i *)(pi2_src + (-1 * src_strd)));

                /*load 4 pixel values */
                s22_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (0 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s21_8x16b, s22_8x16b);

                s11_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                /*load 4 pixel values */
                s23_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (1 * src_strd)));

                /*load 4 pixel values */
                s24_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (2 * src_strd)));

                s6_8x16b = _mm_unpacklo_epi16(s23_8x16b, s24_8x16b);

                s12_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s11_8x16b, s12_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s6_8x16b, zero_8x16b);

/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pi2_dst), s9_8x16b);

                s25_8x16b = _mm_loadl_epi64((__m128i *)(pi2_src + (3 * src_strd)));

                s5_8x16b = _mm_unpacklo_epi16(s22_8x16b, s23_8x16b);
                s15_8x16b = _mm_madd_epi16(s5_8x16b, coeff0_1_8x16b);

                s6_8x16b = _mm_unpacklo_epi16(s24_8x16b, s25_8x16b);
                s16_8x16b = _mm_madd_epi16(s6_8x16b, coeff2_3_8x16b);

                s8_8x16b = _mm_add_epi32(s15_8x16b, s16_8x16b); /* (i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) */

                /*(i2_tmp + OFFSET_14_MINUS_BIT_DEPTH) >> SHIFT_14_MINUS_BIT_DEPTH */
                s6_8x16b = _mm_srai_epi32(s8_8x16b,  SHIFT_14_MINUS_BIT_DEPTH);

                s9_8x16b = _mm_packs_epi32(s6_8x16b, zero_8x16b);

/* store 8 8-bit output values  */
                /* pi2_dst[col] = (UWORD8)i2_tmp; */
                _mm_storel_epi64((__m128i *)(pi2_dst + dst_strd), s9_8x16b);

                pi2_src += 4;   /* To pointer update */
                pi2_dst += 4;
            } /* inner for loop ends here(8-output values in single iteration) */

            pi2_src = pi2_src_copy + 2 * src_strd; /* pointer update */
            pi2_dst = pi2_dst_copy + 2 * dst_strd; /* pointer update */
        }
    }

}