gemma-4-e2b-turboquant-tql-3b (TurboQuant INT4 Professional)

Este repositorio contiene una versión optimizada de Jonatan-1987-xtv/gemma-4-e2b-turboquant-tql-3b utilizando la técnica TurboQuant (Hadamard Rotation). Diseñado para ofrecer máxima fidelidad en formato de 4 bits.

🚀 Innovación: TurboQuant

A diferencia de la cuantización Round-to-Nearest estándar, TurboQuant aplica una Transformada Rápida de Hadamard a los pesos antes de cuantizar. Esto distribuye la energía de los outliers, permitiendo que el formato INT4 mantenga una precisión casi idéntica al modelo original de 16 bits.

Fidelidad INT4 (Similitud Coseno): 0.0000
Fidelidad PLE (Embeddings): 0.0000
Configuración: 3-bit Weights / 8-bit Per-Layer Embeddings

📊 Benchmarks Reales (RTX 5080 / Blackwell)

Formato	Throughput (tok/s)	Peak VRAM (GB)	Mejora Speed
Original (FP16)	2.5	10.2	1.0x
TurboQuant (INT4)	12.3	11.0	4.92x
ONNX OGA (q4)	~14.8	~8.8	5.90x

🛠 Guía de Uso Multimodal

Este modelo es trimodal (Texto, Imagen y Audio). Para su uso, se requiere el procesador de Gemma 4.

1. Uso con ONNX Runtime GenAI (Recomendado)

Ideal para aplicaciones .NET MAUI o Python de alta velocidad. Los archivos están en la carpeta /onnx.

import onnxruntime_genai as ogai

# Cargar modelo desde la subcarpeta onnx
model = ogai.Model("path/to/repo/onnx")
tokenizer = ogai.Tokenizer(model)

# Inferencia Multimodal
params = ogai.GeneratorParams(model)
prompt = "<image>\nDescribe esta imagen."
input_tokens = tokenizer.encode(prompt)
params.input_ids = input_tokens

# Generar
generator = ogai.Generator(model, params)
while not generator.is_done():
    generator.compute_next_token()
    print(tokenizer.decode(generator.get_next_tokens()), end="")

2. Uso para Audio (Tokens nativos)

# El modelo acepta tokens <audio> directamente en el prompt
prompt = "<audio>\nTranscribe y resume este clip de audio."

📁 Estructura del Repositorio

model.safetensors: Pesos empaquetados TurboQuant (INT4).
/onnx: Bundle completo para ONNX Runtime GenAI (incluye vision y audio encoders).
config.json: Configuración de arquitectura Gemma 4.

⚖️ Licencia

Released under Gemma Terms of Use. Base weights by Google DeepMind. Optimized with TurboQuant Professional Toolkit.

Downloads last month: -

Safetensors

Model size

4B params

Tensor type

F16