meta/generators/quantized_mul_kernels_common.py

# Copyright 2016 The Gemmlowp Authors. All rights reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
"""."""

import common


def _ReadParams(emitter, registers, input_address, elements, min_register):
  registers_count = (elements + 3) / 4
  registers = [
      registers.QuadRegister(min_register)
      for unused_i in range(registers_count)
  ]
  emitter.EmitVLoadAE(registers_count * 4, 32, registers, input_address, 64)
  return registers


def _Duplicate(emitter, registers, rows, values):
  """Populate a grid of registers duplicating provided values."""
  duplicated = []
  for i in range(rows):
    if i is rows - 1:
      duplicated.append(values[0])
    else:
      duplicated.append(registers.QuadRegister())

    emitter.EmitVDup('32', duplicated[i],
                     emitter.Lane(32, values[i / 4], i % 4))

  return duplicated


def _DuplicateGeneralRegister(emitter, registers, value, min_register):
  register = registers.QuadRegister(min_register)
  emitter.EmitVDup('32', register, value)
  return register


class _StaticQuantizationUInt8Transformation(object):
  """Calculate quantized values and cast back to uint8."""

  def Prepare(self, emitter, registers, kernel_m, kernel_n, lhs, rhs):
    """Load parameters and prepare duplicated registers."""
    emitter.EmitNewline()
    emitter.EmitComment('StaticQuantization::Prepare')

    lhs_offset = _ReadParams(emitter, registers, lhs, kernel_m, 4)
    self.rhs_offsets = _ReadParams(emitter, registers, rhs, kernel_n, 4)
    self.multiplicative_offset = _DuplicateGeneralRegister(
        emitter, registers,
        registers.MapParameter('multiplicative_offset',
                               'params.kernel.multiplicative_offset'), 4)
    self.rounding_offset = _DuplicateGeneralRegister(
        emitter, registers,
        registers.MapParameter('rounding_offset',
                               'params.kernel.rounding_offset'), 4)
    self.shift = _DuplicateGeneralRegister(
        emitter, registers,
        registers.MapParameter('shift', 'params.kernel.shift'), 4)
    self.lhs_offsets = _Duplicate(emitter, registers, kernel_m, lhs_offset)

  def Transform(self, emitter, registers, data, unused_kernel_m,
                unused_kernel_n):
    """Quantize the data."""
    emitter.EmitNewline()
    emitter.EmitComment('StaticQuantization::Transform')

    for (row, lhs_offset) in zip(data, self.lhs_offsets):
      for row_register in row:
        emitter.EmitVAdd('s32', row_register, row_register, lhs_offset)

    for row in data:
      for (row_register, rhs_offset_register) in zip(row, self.rhs_offsets):
        emitter.EmitVAdd('s32', row_register, row_register, rhs_offset_register)

    for row in data:
      for row_register in row:
        emitter.EmitVMul('i32', row_register, row_register,
                         self.multiplicative_offset)

    for row in data:
      for row_register in row:
        emitter.EmitVAdd('i32', row_register, row_register,
                         self.rounding_offset)

    for row in data:
      for row_register in row:
        emitter.EmitVShl('s32', row_register, row_register, self.shift)

    if len(data[0]) is 1:
      for row in data:
        emitter.EmitVQmovn('s32', row[0], row[0])

      for row in data:
        emitter.EmitVQmovun('s16', row[0], row[0])

      return data
    elif len(data[0]) is 2:
      results = []
      for row in data:
        emitter.EmitVQmovn2('s32', row[0], row[0], row[1])
        registers.FreeRegister(row[1])
        results.append([row[0]])

      for row in results:
        emitter.EmitVQmovun('s16', row[0], row[0])

      return results
    else:
      assert False

  def Type(self):
    return 8


class _StaticQuantizationInt32Transformation(object):
  """."""

  def Prepare(self, emitter, registers, kernel_m, kernel_n, lhs, rhs):
    emitter.EmitNewline()
    emitter.EmitComment('StaticQuantizationInt32::Prepare')

    lhs_offset = _ReadParams(emitter, registers, lhs, kernel_m, 4)
    self.rhs_offsets = _ReadParams(emitter, registers, rhs, kernel_n, 4)
    self.lhs_offsets = _Duplicate(emitter, registers, kernel_m, lhs_offset)

  def Transform(self, emitter, unused_registers, data, unused_kernel_m,
                unused_kernel_n):
    """Quantize data and output as int32."""
    emitter.EmitNewline()
    emitter.EmitComment('StaticQuantizationInt32::Transform')

    for (row, lhs_offset) in zip(data, self.lhs_offsets):
      for row_register in row:
        emitter.EmitVAdd('s32', row_register, row_register, lhs_offset)

    for row in data:
      for (row_register, rhs_offsets_register) in zip(row, self.rhs_offsets):
        emitter.EmitVAdd('s32', row_register, row_register,
                         rhs_offsets_register)

    return data

  def Type(self):
    return 32


class _StaticQuantizationFloatTransformation(object):
  """."""

  def Prepare(self, emitter, registers, kernel_m, kernel_n, lhs, rhs):
    emitter.EmitNewline()
    emitter.EmitComment('StaticQuantizationFloat::Prepare')

    lhs_offset = _ReadParams(emitter, registers, lhs, kernel_m, 4)
    self.rhs_offsets = _ReadParams(emitter, registers, rhs, kernel_n, 4)
    self.scale = _DuplicateGeneralRegister(
        emitter, registers,
        registers.MapParameter('scale', 'params.kernel.scale'), 4)
    self.lhs_offsets = _Duplicate(emitter, registers, kernel_m, lhs_offset)

  def Transform(self, emitter, unused_registers, data, unused_kernel_m,
                unused_kernel_n):
    """Quantize data and output as float."""
    emitter.EmitNewline()
    emitter.EmitComment('StaticQuantizationFloat::Transform')

    for (row, lhs_offset) in zip(data, self.lhs_offsets):
      for row_register in row:
        emitter.EmitVAdd('s32', row_register, row_register, lhs_offset)

    for row in data:
      for (row_register, rhs_offsets_register) in zip(row, self.rhs_offsets):
        emitter.EmitVAdd('s32', row_register, row_register,
                         rhs_offsets_register)

    for row in data:
      for row_register in row:
        emitter.EmitVCvt('f32', 's32', row_register, row_register)

    for row in data:
      for row_register in row:
        emitter.EmitVMul('f32', row_register, row_register, self.scale)

    return data

  def Type(self):
    return 32


class _RowMajorOutput(object):
  """Output data in row major layout."""

  def Prepare(self, emitter, registers, kernel_m, unused_kernel_n,
              unused_data_type):
    """Prepare strided load addresses."""
    emitter.EmitNewline()
    emitter.EmitComment('RowMajorOutput::Prepare')

    stride = registers.MapParameter('stride', 'params.output_stream.stride')

    self.outputs = []
    self.outputs.append(registers.MapOutputParameter('result'))

    for unused_i in range(kernel_m - 1):
      register = registers.GeneralRegister()
      emitter.EmitAdd(register, self.outputs[-1], stride)
      self.outputs.append(register)

  def Output(self, emitter, unused_registers, data, data_type, unused_kernel_m,
             kernel_n):
    emitter.EmitNewline()
    emitter.EmitComment('RowMajorOutput::Output')

    for (datum, output) in zip(data, self.outputs):
      emitter.EmitVStoreAE(data_type, kernel_n, datum, output, None)


def _GenerateAndClearAggregators(emitter, registers, count):
  """Prepare aggregators and emit aggregator clear code."""
  emitter.EmitNewline()
  emitter.EmitComment('Clear aggregators.')
  aggregators = [registers.QuadRegister() for unused_i in range(count)]
  for i in range(count):
    if i < 3:
      emitter.EmitVMov('i32', aggregators[i], emitter.ImmediateConstant(0))
    else:
      emitter.EmitVMov('i32', aggregators[i], aggregators[i - 3])
  return aggregators


def _Generate3x3LoadMultiplyAggregate(emitter, registers, aggregators, lhs, rhs,
                                      count):
  """Emit inner loop for 3 rows x 3 cols multiplication."""
  emitter.EmitNewline()
  emitter.EmitComment('3x3 lanes loop.')
  emitter.EmitNumericalLabel(1)
  emitter.EmitNewline()

  lhs_load = [registers.DoubleRegister() for unused_i in range(3)]
  rhs_load = [registers.DoubleRegister() for unused_i in range(3)]
  temp = [registers.QuadRegister() for unused_i in range(4)]

  emitter.EmitVLoadA(1, 8, rhs_load, emitter.DereferenceIncrement(rhs, 64))
  emitter.EmitVLoad(1, 8, lhs_load[0], emitter.DereferenceIncrement(lhs, 64))

  emitter.EmitVMull('u8', temp[0], lhs_load[0], rhs_load[0])
  emitter.EmitVLoad(1, 8, lhs_load[1], emitter.DereferenceIncrement(lhs, 64))

  emitter.EmitVMull('u8', temp[1], lhs_load[0], rhs_load[1])
  emitter.EmitVLoad(1, 8, lhs_load[2], emitter.DereferenceIncrement(lhs, 64))

  emitter.EmitVMull('u8', temp[2], lhs_load[0], rhs_load[2])
  emitter.EmitPldOffset(lhs, emitter.ImmediateConstant(64))

  emitter.EmitVMull('u8', temp[3], lhs_load[1], rhs_load[0])
  emitter.EmitPldOffset(rhs, emitter.ImmediateConstant(64))

  emitter.EmitVPadal('u16', aggregators[0], temp[0])
  emitter.EmitVPadal('u16', aggregators[1], temp[1])
  emitter.EmitVPadal('u16', aggregators[2], temp[2])
  emitter.EmitVPadal('u16', aggregators[3], temp[3])

  emitter.EmitVMull('u8', temp[0], lhs_load[1], rhs_load[1])
  emitter.EmitVMull('u8', temp[1], lhs_load[1], rhs_load[2])

  registers.FreeRegisters([lhs_load[0], lhs_load[1]])
  temp.append(registers.QuadRegister())

  emitter.EmitVMull('u8', temp[2], lhs_load[2], rhs_load[0])
  emitter.EmitVMull('u8', temp[3], lhs_load[2], rhs_load[1])

  emitter.EmitNewline()
  emitter.EmitComment('Subtract counter.')
  emitter.EmitSubs(count, count, emitter.ImmediateConstant(8))
  emitter.EmitNewline()

  emitter.EmitVMull('u8', temp[4], lhs_load[2], rhs_load[2])

  emitter.EmitVPadal('u16', aggregators[4], temp[0])
  emitter.EmitVPadal('u16', aggregators[5], temp[1])
  emitter.EmitVPadal('u16', aggregators[6], temp[2])
  emitter.EmitVPadal('u16', aggregators[7], temp[3])
  emitter.EmitVPadal('u16', aggregators[8], temp[4])

  emitter.EmitNewline()
  emitter.EmitComment('Loop break.')
  emitter.EmitBgtBack(1)

  registers.FreeRegisters(temp + [lhs_load[2]] + rhs_load)


def _Generate2x4LoadMultiplyAggregate(emitter, registers, aggregators, lhs, rhs,
                                      count):
  """Emit inner loop for 2 rows x 4 cols multiplication."""
  emitter.EmitNewline()
  emitter.EmitComment('2x4 lanes loop.')
  emitter.EmitNumericalLabel(1)
  emitter.EmitNewline()

  lhs_load = [registers.DoubleRegister() for unused_i in range(2)]
  rhs_load = [registers.DoubleRegister() for unused_i in range(4)]
  temp = [registers.QuadRegister() for unused_i in range(5)]

  emitter.EmitVLoadA(1, 8, rhs_load, emitter.DereferenceIncrement(rhs, 256))
  emitter.EmitVLoad(1, 8, lhs_load[0], emitter.DereferenceIncrement(lhs, 64))

  emitter.EmitVMull('u8', temp[0], lhs_load[0], rhs_load[0])
  emitter.EmitVLoad(1, 8, lhs_load[1], emitter.DereferenceIncrement(lhs, 64))

  emitter.EmitVMull('u8', temp[1], lhs_load[0], rhs_load[1])
  emitter.EmitPldOffset(rhs, emitter.ImmediateConstant(64))

  emitter.EmitVMull('u8', temp[2], lhs_load[0], rhs_load[2])
  emitter.EmitPldOffset(lhs, emitter.ImmediateConstant(64))

  emitter.EmitVMull('u8', temp[3], lhs_load[0], rhs_load[3])
  emitter.EmitVMull('u8', temp[4], lhs_load[1], rhs_load[0])

  emitter.EmitVPadal('u16', aggregators[0], temp[0])
  emitter.EmitVPadal('u16', aggregators[1], temp[1])
  emitter.EmitVPadal('u16', aggregators[2], temp[2])

  emitter.EmitVMull('u8', temp[0], lhs_load[1], rhs_load[1])
  emitter.EmitVMull('u8', temp[1], lhs_load[1], rhs_load[2])
  emitter.EmitVMull('u8', temp[2], lhs_load[1], rhs_load[3])

  emitter.EmitNewline()
  emitter.EmitComment('Subtract counter.')
  emitter.EmitSubs(count, count, emitter.ImmediateConstant(8))

  emitter.EmitNewline()
  emitter.EmitVPadal('u16', aggregators[3], temp[3])
  emitter.EmitVPadal('u16', aggregators[4], temp[4])
  emitter.EmitVPadal('u16', aggregators[5], temp[0])
  emitter.EmitVPadal('u16', aggregators[6], temp[1])
  emitter.EmitVPadal('u16', aggregators[7], temp[2])

  emitter.EmitNewline()
  emitter.EmitComment('Loop break.')
  emitter.EmitBgtBack(1)

  registers.FreeRegisters(temp + lhs_load + rhs_load)


def _Generate1x8LoadMultiplyAggregate(emitter, registers, aggregators, lhs, rhs,
                                      count):
  """Emit inner loop for 1 rows x 8 cols multiplication."""
  emitter.EmitNewline()
  emitter.EmitComment('1x8 lanes loop.')
  emitter.EmitNumericalLabel(1)
  emitter.EmitNewline()

  lhs_load = registers.DoubleRegister()
  rhs_load = [registers.DoubleRegister() for unused_i in range(4)]
  temp = [registers.QuadRegister() for unused_i in range(5)]

  emitter.EmitVLoadAE(4 * 8, 8, rhs_load, rhs, 256)
  emitter.EmitVLoadE(8, 8, lhs_load, lhs, 64)

  emitter.EmitVMull('u8', temp[0], lhs_load, rhs_load[0])
  emitter.EmitVMull('u8', temp[1], lhs_load, rhs_load[1])
  emitter.EmitVMull('u8', temp[2], lhs_load, rhs_load[2])
  emitter.EmitVMull('u8', temp[3], lhs_load, rhs_load[3])

  emitter.EmitVLoadAE(4 * 8, 8, rhs_load, rhs, 256)

  emitter.EmitVPadal('u16', aggregators[0], temp[0])
  emitter.EmitVPadal('u16', aggregators[1], temp[1])
  emitter.EmitVPadal('u16', aggregators[2], temp[2])
  emitter.EmitVPadal('u16', aggregators[3], temp[3])

  emitter.EmitPldOffset(rhs, emitter.ImmediateConstant(256))

  emitter.EmitVMull('u8', temp[4], lhs_load, rhs_load[0])
  emitter.EmitVMull('u8', temp[0], lhs_load, rhs_load[1])
  emitter.EmitVMull('u8', temp[1], lhs_load, rhs_load[2])
  emitter.EmitVMull('u8', temp[2], lhs_load, rhs_load[3])

  emitter.EmitPldOffset(lhs, emitter.ImmediateConstant(32))

  emitter.EmitNewline()
  emitter.EmitComment('Subtract counter.')
  emitter.EmitSubs(count, count, emitter.ImmediateConstant(8))

  emitter.EmitNewline()
  emitter.EmitVPadal('u16', aggregators[4], temp[4])
  emitter.EmitVPadal('u16', aggregators[5], temp[0])
  emitter.EmitVPadal('u16', aggregators[6], temp[1])
  emitter.EmitVPadal('u16', aggregators[7], temp[2])

  emitter.EmitNewline()
  emitter.EmitComment('Loop break.')
  emitter.EmitBgtBack(1)

  registers.FreeRegisters(temp + [lhs_load] + rhs_load)


def _GenerateNxMLoadMultiplyAggregate(emitter, registers, kernel_m, kernel_n,
                                      aggregators, lhs, rhs, count):
  """Emit inner loop for N rows x M cols multiplication."""
  emitter.EmitNewline()
  emitter.EmitComment('General NxM lanes loop.')
  emitter.EmitNumericalLabel(1)
  emitter.EmitNewline()
  emitter.EmitComment('Subtract counter.')
  emitter.EmitSubs(count, count, emitter.ImmediateConstant(8))
  emitter.EmitNewline()

  lhs_load = [registers.DoubleRegister() for unused_i in range(kernel_m)]
  rhs_load = [registers.DoubleRegister() for unused_i in range(kernel_n)]

  emitter.EmitVLoadAE(8 * kernel_m, 8, lhs_load, lhs, 64)
  emitter.EmitVLoadAE(8 * kernel_n, 8, rhs_load, rhs, 64)

  emitter.EmitPldOffset(lhs, emitter.ImmediateConstant(64))
  emitter.EmitPldOffset(rhs, emitter.ImmediateConstant(64))

  results = [
      registers.QuadRegister() for unused_i in range(kernel_m * kernel_n)
  ]

  for row in range(kernel_m):
    for col in range(kernel_n):
      index = row * kernel_n + col
      emitter.EmitVMull('u8', results[index], rhs_load[col], lhs_load[row])

  for i in range(kernel_m * kernel_n):
    emitter.EmitVPadal('u16', aggregators[i], results[i])

  emitter.EmitNewline()
  emitter.EmitComment('Loop break.')
  emitter.EmitBgtBack(1)

  registers.FreeRegisters(lhs_load + rhs_load + results)


def _Generate1xNLoadMultiplyAggregate(emitter, registers, kernel_n, aggregators,
                                      lhs, rhs, count):
  """Emit inner loop for 1 row x M cols multiplication."""
  assert kernel_n in [5, 6, 7, 8]
  emitter.EmitNewline()
  emitter.EmitComment('General 1xM lanes loop.')
  emitter.EmitNumericalLabel(1)
  emitter.EmitNewline()
  emitter.EmitComment('Subtract counter.')
  emitter.EmitSubs(count, count, emitter.ImmediateConstant(8))
  emitter.EmitNewline()

  leftover = kernel_n - 4

  rhs_load = [registers.DoubleRegister() for unused_i in range(4)]
  lhs_load = registers.DoubleRegister()

  emitter.EmitVLoadAE(8 * 4, 8, rhs_load, rhs, 64)
  emitter.EmitVLoadE(8, 8, lhs_load, lhs, 64)

  emitter.EmitPldOffset(lhs, emitter.ImmediateConstant(64))

  results = [registers.QuadRegister() for unused_i in range(4)]

  for i in range(4):
    emitter.EmitVMull('u8', results[i], rhs_load[i], lhs_load)

  emitter.EmitVLoadAE(8 * leftover, 8, rhs_load, rhs, 64)
  emitter.EmitPldOffset(rhs, emitter.ImmediateConstant(128))

  for i in range(4):
    emitter.EmitVPadal('u16', aggregators[i], results[i])

  for i in range(leftover):
    emitter.EmitVMull('u8', results[i], rhs_load[i], lhs_load)

  for i in range(leftover):
    emitter.EmitVPadal('u16', aggregators[i + 4], results[i])

  emitter.EmitNewline()
  emitter.EmitComment('Loop break.')
  emitter.EmitBgtBack(1)

  registers.FreeRegisters([lhs_load] + rhs_load + results)


def _GenerateMultiplyKernel(emitter, registers, kernel_m, kernel_n, lhs, rhs):
  """Main muliply loop. Pick best implementation for given kernel shape."""
  count = registers.MapParameter('count', 'params.kernel.count')

  aggregators = _GenerateAndClearAggregators(emitter, registers,
                                             kernel_m * kernel_n)
  if kernel_m is 3 and kernel_n is 3:
    _Generate3x3LoadMultiplyAggregate(emitter, registers, aggregators, lhs, rhs,
                                      count)
  elif kernel_m is 2 and kernel_n is 4:
    _Generate2x4LoadMultiplyAggregate(emitter, registers, aggregators, lhs, rhs,
                                      count)
  elif kernel_m is 1 and kernel_n is 8:
    _Generate1x8LoadMultiplyAggregate(emitter, registers, aggregators, lhs, rhs,
                                      count)
  elif kernel_m is 1 and kernel_n > 4:
    _Generate1xNLoadMultiplyAggregate(emitter, registers, kernel_n, aggregators,
                                      lhs, rhs, count)
  else:
    _GenerateNxMLoadMultiplyAggregate(emitter, registers, kernel_m, kernel_n,
                                      aggregators, lhs, rhs, count)
  return aggregators


def _ReduceAggregators(emitter, aggregators):
  reduced_count = (len(aggregators) + 3) / 4
  reduced = aggregators[:reduced_count]
  emitter.EmitVSumReduce('u32', len(aggregators), 4, reduced, aggregators)
  return reduced


def _GenerateAggregatorReduce(emitter, aggregators, kernel_m, kernel_n):
  emitter.EmitNewline()
  emitter.EmitComment('Reduce aggregators.')
  row_temps = []
  for i in range(kernel_m):
    row_temps.append(
        _ReduceAggregators(emitter, aggregators[i * kernel_n:(i + 1) *
                                                kernel_n]))
  return row_temps


class QuantizedMulKernel(common.MulKernelGenerator):
  """."""

  def __init__(self, cc_emitter, kernel_name, output_stream_name, asm_emitter,
               fused_transformation, output_strategy):
    common.MulKernelGenerator.__init__(self, cc_emitter, kernel_name,
                                       output_stream_name)
    self.asm_emitter = asm_emitter
    self.fused_transformation = fused_transformation
    self.output_strategy = output_strategy

  def EmitMultiply(self, in_type, out_type, kernel_m, kernel_n, pack_size):
    assert in_type is 'uint8_t'
    assert pack_size is 8
    assert kernel_m * kernel_n <= 9

    registers = self.asm_emitter.CreateRegisters()

    self.asm_emitter.PushIndent(self.emitter.indent)
    self.asm_emitter.EmitAsmBegin()

    lhs = registers.MapOutputParameter('lhs')
    rhs = registers.MapOutputParameter('rhs')
    self.asm_emitter.EmitPld(lhs)
    self.asm_emitter.EmitPld(rhs)

    aggregators = _GenerateMultiplyKernel(self.asm_emitter, registers, kernel_m,
                                          kernel_n, lhs, rhs)

    self.fused_transformation.Prepare(self.asm_emitter, registers, kernel_m,
                                      kernel_n, lhs, rhs)

    self.output_strategy.Prepare(self.asm_emitter, registers, kernel_m,
                                 kernel_n, self.fused_transformation.Type())

    reduced = _GenerateAggregatorReduce(self.asm_emitter, aggregators, kernel_m,
                                        kernel_n)

    transformed = self.fused_transformation.Transform(self.asm_emitter,
                                                      registers, reduced,
                                                      kernel_m, kernel_n)

    self.output_strategy.Output(self.asm_emitter, registers, transformed,
                                self.fused_transformation.Type(), kernel_m,
                                kernel_n)

    self.asm_emitter.EmitAsmEnd(registers)
    self.asm_emitter.PopIndent(len(self.emitter.indent))


class QuantizedMulStaticRowMajor(QuantizedMulKernel):
  """."""

  def __init__(self, cc_emitter, asm_emitter):
    QuantizedMulKernel.__init__(self, cc_emitter, 'QuantizedStaticPreprocessed',
                                'RowMajor', asm_emitter,
                                _StaticQuantizationUInt8Transformation(),
                                _RowMajorOutput())


class QuantizedMulStaticAsInt32RowMajor(QuantizedMulKernel):
  """."""

  def __init__(self, cc_emitter, asm_emitter):
    QuantizedMulKernel.__init__(self, cc_emitter,
                                'QuantizedStaticPreprocessedAsInt32',
                                'RowMajor', asm_emitter,
                                _StaticQuantizationInt32Transformation(),
                                _RowMajorOutput())


class QuantizedMulStaticAsFloatRowMajor(QuantizedMulKernel):
  """."""

  def __init__(self, cc_emitter, asm_emitter):
    QuantizedMulKernel.__init__(self, cc_emitter,
                                'QuantizedStaticPreprocessedAsFloat',
                                'RowMajor', asm_emitter,
                                _StaticQuantizationFloatTransformation(),
                                _RowMajorOutput())


def GenerateKernels(cc_emitter, asm_emitter, shapes):
  """Generate the quantized multiplication kernels for uint8 operands."""
  quantized_mul_static_row_major = QuantizedMulStaticRowMajor(cc_emitter,
                                                              asm_emitter)
  quantized_mul_static_int32_row_major = QuantizedMulStaticAsInt32RowMajor(
      cc_emitter, asm_emitter)

  quantized_mul_static_float_row_major = QuantizedMulStaticAsFloatRowMajor(
      cc_emitter, asm_emitter)

  for shape in shapes:
    quantized_mul_static_row_major.SpecializeMulKernel('uint8_t', 'uint8_t',
                                                       shape[0], shape[1], 8)
  for shape in shapes:
    quantized_mul_static_int32_row_major.SpecializeMulKernel('uint8_t',
                                                             'int32_t',
                                                             shape[0], shape[1],
                                                             8)

  for shape in shapes:
    quantized_mul_static_float_row_major.SpecializeMulKernel('uint8_t', 'float',
                                                             shape[0], shape[1],
                                                             8)