Gemma 4 12B, un modelo multimodal con audio nativo para portátiles

mércores, 3 de xuño do 2026 Redacción

Google anunciou o lanzamento de Gemma 4 12B, un novo modelo de intelixencia artificial que busca situarse entre o compacto Gemma E4B e o máis avanzado Gemma 26B baseado nunha arquitectura Mixture of Experts (MoE). A principal novidade desta versión é a incorporación de soporte nativo para entradas de audio, converténdose no primeiro modelo de tamaño medio da familia Gemma con esta capacidade.
O novo modelo está deseñado para ofrecer capacidades multimodais avanzadas directamente en equipos persoais, cunha pegada de memoria reducida que permite a súa execución local en portátiles equipados con 16 GB de memoria RAM ou memoria unificada. Segundo explica Google, Gemma 4 acumula xa máis de 150 millóns de descargas desde o seu lanzamento, cunha comunidade de desenvolvedores que emprega estes modelos en proxectos que van desde dispositivos robóticos de asistencia física ata solucións empresariais de seguridade baseadas en IA.
Un dos aspectos máis destacados de Gemma 4 12B é a súa arquitectura unificada sen codificadores multimodais independentes. Mentres que os modelos multimodais tradicionais adoitan recorrer a módulos específicos para procesar imaxes ou audio antes de transmitir a información ao modelo lingüístico principal, Gemma 4 12B integra directamente estes datos na propia arquitectura do modelo.
Para o tratamento de imaxes, substituíuse o codificador visual empregado noutras versións por un módulo de incrustación simplificado composto por unha única multiplicación matricial, sistemas de normalización e embeddings posicionais. A partir dese punto, o propio modelo lingüístico encárgase do procesamento visual.
A simplificación é aínda maior no apartado de audio. Google eliminou completamente o codificador específico e proxecta directamente o sinal sonoro bruto ao mesmo espazo dimensional empregado polos tokens de texto, permitindo que o modelo procese o audio de forma nativa.
A compañía asegura que este deseño contribúe a reducir a latencia e o consumo de memoria, ao tempo que mantén un rendemento próximo ao de Gemma 26B en probas de referencia. Isto permite executar fluxos de traballo axénticos e tarefas de razoamento multietapa en hardware de consumo sen depender da nube.
Gemma 4 12B distribúese baixo licenza Apache 2.0 e inclúe compatibilidade con ferramentas e plataformas amplamente utilizadas pola comunidade de desenvolvemento, entre elas Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM e Unsloth. Tamén incorpora drafters de Multi-Token Prediction (MTP), unha tecnoloxía destinada a reducir a latencia durante a xeración de respostas.
O modelo xa pode empregarse a través de aplicacións como LM Studio, Ollama, Google AI Edge Gallery ou Google AI Edge Eloquent, esta última utilizada por Google para demostrar a transcrición, tradución e formateado de voz completamente sen conexión. Os pesos do modelo están dispoñibles para descarga en Hugging Face e Kaggle, mentres que a súa despregadura en produción pode realizarse mediante servizos de Google Cloud como Model Garden, Cloud Run ou GKE.
Xunto co lanzamento, Google tamén anunciou un repositorio oficial de habilidades denominado Gemma Skills, concibido para facilitar a creación de axentes de IA baseados nos modelos da familia Gemma e aproveitar as novas capacidades incorporadas nesta versión.

Subscríbete ao noso boletín

En móbiles e tabletas

Redes sociais

Gemma 4 12B, un modelo multimodal con audio nativo para portátiles

Na mesma sección

Xa se poden solicitar as axudas para tecnoloxías duais en defensa, seguridade e aeroespazo, cun orzamento de 6 millóns

O CPEIG outorga o XVII Premio TFM ao enxeñeiro informático pontevedrés David Zambrana

Dous de cada tres fogares galegos xa están subscritos a plataformas culturais

Talentos Inclusivos do CITIC consolídase como referente europeo no Science on Stage Festival

O Banco de Reciclaxe Electrónica do Milladoiro organiza un obradoiro de posta a punto de computadores

A Xunta incorpora novas funcións na ferramenta de IA que reforza a orientación na FP

ViaGalicia pecha a súa oitava convocatoria con 14 proxectos marcados pola innovación

Os desafíos tecnolóxicos das pemes, polo miúdo nunha xornada na Deputación de Pontevedra