Gemma 4 12B, un modelo multimodal con audio nativo para portátiles
mércores, 3 de xuño do 2026
Google anunciou o lanzamento de Gemma 4 12B, un novo modelo de intelixencia artificial que busca situarse entre o compacto Gemma E4B e o máis avanzado Gemma 26B baseado nunha arquitectura Mixture of Experts (MoE). A principal novidade desta versión é a incorporación de soporte nativo para entradas de audio, converténdose no primeiro modelo de tamaño medio da familia Gemma con esta capacidade.
O novo modelo está deseñado para ofrecer capacidades multimodais avanzadas directamente en equipos persoais, cunha pegada de memoria reducida que permite a súa execución local en portátiles equipados con 16 GB de memoria RAM ou memoria unificada. Segundo explica Google, Gemma 4 acumula xa máis de 150 millóns de descargas desde o seu lanzamento, cunha comunidade de desenvolvedores que emprega estes modelos en proxectos que van desde dispositivos robóticos de asistencia fÃsica ata solucións empresariais de seguridade baseadas en IA.
Un dos aspectos máis destacados de Gemma 4 12B é a súa arquitectura unificada sen codificadores multimodais independentes. Mentres que os modelos multimodais tradicionais adoitan recorrer a módulos especÃficos para procesar imaxes ou audio antes de transmitir a información ao modelo lingüÃstico principal, Gemma 4 12B integra directamente estes datos na propia arquitectura do modelo.
Para o tratamento de imaxes, substituÃuse o codificador visual empregado noutras versións por un módulo de incrustación simplificado composto por unha única multiplicación matricial, sistemas de normalización e embeddings posicionais. A partir dese punto, o propio modelo lingüÃstico encárgase do procesamento visual.
A simplificación é aÃnda maior no apartado de audio. Google eliminou completamente o codificador especÃfico e proxecta directamente o sinal sonoro bruto ao mesmo espazo dimensional empregado polos tokens de texto, permitindo que o modelo procese o audio de forma nativa.
A compañÃa asegura que este deseño contribúe a reducir a latencia e o consumo de memoria, ao tempo que mantén un rendemento próximo ao de Gemma 26B en probas de referencia. Isto permite executar fluxos de traballo axénticos e tarefas de razoamento multietapa en hardware de consumo sen depender da nube.
Gemma 4 12B distribúese baixo licenza Apache 2.0 e inclúe compatibilidade con ferramentas e plataformas amplamente utilizadas pola comunidade de desenvolvemento, entre elas Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM e Unsloth. Tamén incorpora drafters de Multi-Token Prediction (MTP), unha tecnoloxÃa destinada a reducir a latencia durante a xeración de respostas.
O modelo xa pode empregarse a través de aplicacións como LM Studio, Ollama, Google AI Edge Gallery ou Google AI Edge Eloquent, esta última utilizada por Google para demostrar a transcrición, tradución e formateado de voz completamente sen conexión. Os pesos do modelo están dispoñibles para descarga en Hugging Face e Kaggle, mentres que a súa despregadura en produción pode realizarse mediante servizos de Google Cloud como Model Garden, Cloud Run ou GKE.
Xunto co lanzamento, Google tamén anunciou un repositorio oficial de habilidades denominado Gemma Skills, concibido para facilitar a creación de axentes de IA baseados nos modelos da familia Gemma e aproveitar as novas capacidades incorporadas nesta versión.
