Anunciamos la versión preliminar de Gemma 3n: IA potente y eficiente que prioriza la experiencia móvil

20 DE MAYO DE 2025

Lucas Gonzalez Product Manager

Rakesh Shivanna Principal Software Engineer

Tras los emocionantes lanzamientos de Gemma 3 y Gemma 3 QAT, nuestra familia de modelos abiertos de última generación capaces de ejecutarse en una sola nube o un acelerador de escritorio, impulsamos aún más nuestra visión de una IA accesible. Gemma 3 brindó potentes capacidades para los desarrolladores, y ahora estamos extendiendo esa visión a una IA sumamente capaz y en tiempo real que opera directamente en los dispositivos que usas todos los días: tus teléfonos, tablets y computadoras portátiles.

Para impulsar la nueva generación de IA integrada en el dispositivo y admitir una amplia gama de aplicaciones, incluido el avance de las capacidades de Gemini Nano, diseñamos una arquitectura nueva y de vanguardia. Esta base de última generación se creó en estrecha colaboración con líderes de hardware para dispositivos móviles, como Qualcomm Technologies, MediaTek y Samsung System LSI, y está optimizada para una IA multimodal y ultrarrápida, que permite experiencias realmente personales y privadas directamente en tu dispositivo.

Gemma 3n es nuestro primer modelo abierto basado en esta innovadora arquitectura compartida que permite a los desarrolladores comenzar a experimentar con esta tecnología hoy mismo en una versión preliminar anticipada. La misma arquitectura avanzada también impulsa la nueva generación de Gemini Nano, que lleva estas capacidades a una amplia gama de funciones en las aplicaciones de Google y nuestro ecosistema integrado en el dispositivo, y estará disponible a finales de este año. Gemma 3n te permite comenzar a compilar sobre esta base que llegará a las principales plataformas, como Android y Chrome.

En este gráfico se clasifican los modelos de IA según las puntuaciones de Chatbot Arena Elo; las puntuaciones más altas (números superiores) indican una mayor preferencia del usuario. Gemma 3n ocupa un lugar destacado entre los modelos patentados y abiertos más populares.

Gemma 3n utiliza una innovación de Google DeepMind llamada “incorporaciones por capas” (PLE), que ofrece una reducción significativa en el uso de RAM. Si bien el recuento de parámetros sin procesar es de 5000 millones y 8000 millones, esta innovación te permite ejecutar modelos más grandes en dispositivos móviles o transmitir en vivo desde la nube, con una sobrecarga de memoria comparable a un modelo de 2000 millones y 4000 millones, lo que significa que los modelos pueden operar con una huella de memoria dinámica de solo 2 GB y 3 GB. Obtén más información en nuestra documentación.

Al explorar Gemma 3n, los desarrolladores pueden obtener una versión preliminar anticipada de las capacidades centrales del modelo abierto y las innovaciones arquitectónicas que priorizan la experiencia móvil y que estarán disponibles en Android y Chrome con Gemini Nano.

En esta entrada, exploraremos las nuevas capacidades de Gemma 3n, nuestro enfoque de desarrollo responsable y cómo puedes acceder a la versión preliminar hoy.

Capacidades clave de Gemma 3n

Diseñado para experiencias de IA rápidas y de baja huella que se ejecutan localmente, Gemma 3n ofrece:

Eficiencia y rendimiento optimizados en el dispositivo: Gemma 3n comienza a responder aproximadamente 1.5 veces más rápido en dispositivos móviles con una calidad significativamente mejor (en comparación con Gemma 3 4B) y una huella de memoria reducida, lo cual se logra a través de innovaciones, como incorporaciones por capa, el uso compartido de KVC y la cuantificación de activación avanzada.

Mucha flexibilidad en un solo modelo: un modelo con una huella de memoria activa de 4000 millones de parámetros que incluye de forma nativa un submodelo anidado de huella de memoria activa de 2000 millones de parámetros de última generación (gracias al entrenamiento de MatFormer). Esto proporciona flexibilidad para compensar dinámicamente el rendimiento y la calidad sobre la marcha sin tener que alojar modelos separados. Además, presentamos la capacidad de combinación y emparejamiento en Gemma 3n para crear dinámicamente submodelos a partir del modelo 4B que puedan adaptarse de manera óptima a tu caso de uso específico, así como la compensación de calidad/latencia asociada. No te pierdas nuestro próximo informe técnico para obtener más información sobre esta investigación.

Un modelo que prioriza la privacidad y se puede usar sin conexión: la ejecución local permite funciones que respetan la privacidad del usuario y funcionan de manera confiable, incluso sin conexión a Internet.

Comprensión multimodal ampliada con audio: Gemma 3n puede comprender y procesar audio, texto e imágenes, y ofrece una comprensión de video significativamente mejorada. Sus capacidades de audio permiten que el modelo realice un reconocimiento automático de voz (transcripción) y traducción (de voz a texto traducido) de alta calidad. Además, el modelo acepta entradas intercaladas en todas las modalidades, lo que permite la comprensión de interacciones multimodales complejas. (Próximamente lanzaremos la implementación pública).

Capacidades multilingües mejoradas: rendimiento multilingüe mejorado, especialmente en japonés, alemán, coreano, español y francés. El buen rendimiento se refleja en puntos de referencia multilingües, como el 50.1% en WMT24++ (ChrF).

En este gráfico se muestra el rendimiento de MMLU en comparación con el tamaño del modelo de la capacidad de combinación y emparejamiento (entrenada previamente) de Gemma 3n.

Descubre nuevas experiencias sobre la marcha

Gemma 3n potenciará una nueva ola de aplicaciones inteligentes sobre la marcha al permitir a los desarrolladores:

Compilar experiencias interactivas en vivo que comprendan y respondan a las señales visuales y auditivas del entorno del usuario en tiempo real.

2. Potenciar una comprensión más profunda y la generación de texto contextual utilizando entradas combinadas de audio, imagen, video y texto, todo procesado de forma privada en el dispositivo.

3. Desarrollar aplicaciones avanzadas centradas en el audio, incluida la transcripción de habla en tiempo real, la traducción e interacciones interesantes basadas en la voz.

Aquí tienes una descripción general y los tipos de experiencias que puedes compilar:

Link to Youtube Video (visible only when JS is disabled)

Compilamos responsablemente, juntos

Nuestro compromiso con el desarrollo responsable de la IA es primordial. Gemma 3n, como todos los modelos de Gemma, se sometió a rigurosas evaluaciones de seguridad, a la administración de datos y a un ajuste en virtud de nuestras políticas de seguridad. Tratamos los modelos abiertos con una cuidadosa evaluación de riesgos y mejoramos continuamente nuestras prácticas a medida que evoluciona el panorama de la IA.

Comienza: accede a la versión preliminar de Gemma 3n hoy mismo

Nos entusiasma poner a Gemma 3n al alcance de tu mano mediante una versión preliminar a partir de hoy:

Acceso inicial (disponible ahora):

Exploración basada en la nube con Google AI Studio: prueba Gemma 3n directamente en tu navegador en Google AI Studio, sin necesidad de configurar nada. Explora sus capacidades de entrada de texto al instante.

Desarrollo en el dispositivo con Google AI Edge: para los desarrolladores que buscan integrar Gemma 3n de forma local, Google AI Edge proporciona herramientas y bibliotecas. Puedes comenzar con las capacidades de comprensión/generación de texto e imágenes hoy mismo.

Gemma 3n marca el próximo paso en la democratización del acceso a una IA eficiente y de vanguardia. Nos entusiasma mucho ver lo que compilarás a medida que esta tecnología esté disponible progresivamente, comenzando con la versión preliminar de hoy.

Explora este anuncio y todas las novedades de Google I/O 2025 en io.google a partir del 22 de mayo.