gemma-4-e2b-turboquant-tql-3b (TurboQuant INT4 Professional)

Este repositorio contiene una versión optimizada de Jonatan-1987-xtv/gemma-4-e2b-turboquant-tql-3b utilizando la técnica TurboQuant (Hadamard Rotation). Diseñado para ofrecer máxima fidelidad en formato de 4 bits.

🚀 Innovación: TurboQuant

A diferencia de la cuantización Round-to-Nearest estándar, TurboQuant aplica una Transformada Rápida de Hadamard a los pesos antes de cuantizar. Esto distribuye la energía de los outliers, permitiendo que el formato INT4 mantenga una precisión casi idéntica al modelo original de 16 bits.

  • Fidelidad INT4 (Similitud Coseno): 0.0000
  • Fidelidad PLE (Embeddings): 0.0000
  • Configuración: 3-bit Weights / 8-bit Per-Layer Embeddings

📊 Benchmarks Reales (RTX 5080 / Blackwell)

Formato Throughput (tok/s) Peak VRAM (GB) Mejora Speed
Original (FP16) 2.5 10.2 1.0x
TurboQuant (INT4) 12.3 11.0 4.92x
ONNX OGA (q4) ~14.8 ~8.8 5.90x

🛠 Guía de Uso Multimodal

Este modelo es trimodal (Texto, Imagen y Audio). Para su uso, se requiere el procesador de Gemma 4.

1. Uso con ONNX Runtime GenAI (Recomendado)

Ideal para aplicaciones .NET MAUI o Python de alta velocidad. Los archivos están en la carpeta /onnx.

import onnxruntime_genai as ogai

# Cargar modelo desde la subcarpeta onnx
model = ogai.Model("path/to/repo/onnx")
tokenizer = ogai.Tokenizer(model)

# Inferencia Multimodal
params = ogai.GeneratorParams(model)
prompt = "<image>\nDescribe esta imagen."
input_tokens = tokenizer.encode(prompt)
params.input_ids = input_tokens

# Generar
generator = ogai.Generator(model, params)
while not generator.is_done():
    generator.compute_next_token()
    print(tokenizer.decode(generator.get_next_tokens()), end="")

2. Uso para Audio (Tokens nativos)

# El modelo acepta tokens <audio> directamente en el prompt
prompt = "<audio>\nTranscribe y resume este clip de audio."

📁 Estructura del Repositorio

  • model.safetensors: Pesos empaquetados TurboQuant (INT4).
  • /onnx: Bundle completo para ONNX Runtime GenAI (incluye vision y audio encoders).
  • config.json: Configuración de arquitectura Gemma 4.

⚖️ Licencia

Released under Gemma Terms of Use. Base weights by Google DeepMind. Optimized with TurboQuant Professional Toolkit.

Downloads last month
-
Safetensors
Model size
4B params
Tensor type
F16
·
U8
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support