Pengumuman pratinjau Gemma 3n: AI berorientasi-seluler yang kuat dan efisien

20 MEI 2025

Lucas Gonzalez Product Manager

Rakesh Shivanna Principal Software Engineer

Menyusul peluncuran mendebarkan Gemma 3 dan Gemma 3 QAT, keluarga model terbuka termutakhir kami yang mampu berjalan di satu akselerator cloud atau desktop, kami mendorong visi kami untuk menghadirkan AI yang dapat diakses lebih jauh lagi. Gemma 3 memberikan kemampuan yang kuat bagi developer, dan sekarang kami memperluas visi tersebut ke AI real-time yang sangat mumpuni yang beroperasi secara langsung di perangkat yang Anda gunakan setiap hari – baik ponsel, tablet, dan laptop.

Untuk memberdayakan AI di perangkat generasi berikutnya dan mendukung beragam aplikasi, termasuk memajukan kemampuan Gemini Nano, kami merancang arsitektur baru yang canggih. Fondasi generasi berikutnya ini dibuat berkat kerja sama erat dengan produsen hardware seluler terkemuka seperti Qualcomm Technologies, MediaTek, dan Samsung System LSI, dan dioptimalkan untuk AI multimodal berkecepatan sangat tinggi, yang memungkinkan pengalaman yang benar-benar personal dan pribadi secara langsung di perangkat Anda.

Gemma 3n adalah model terbuka pertama kami yang dibangun di atas arsitektur bersama yang inovatif ini, sehingga memungkinkan developer untuk mulai bereksperimen dengan teknologi ini sekarang dalam pratinjau awal. Arsitektur lanjutan yang sama juga mendukung Gemini Nano generasi berikutnya, yang membawa kemampuan ini ke berbagai fitur di aplikasi Google dan ekosistem di perangkat kami dan akan tersedia akhir tahun ini. Gemma 3n memungkinkan Anda untuk mulai membangun di atas fondasi yang akan hadir ke platform utama seperti Android dan Chrome.

Chart ini mengurutkan model AI berdasarkan skor Elo Chatbot Arena; skor yang lebih tinggi (angka teratas) menunjukkan preferensi pengguna yang lebih besar. Gemma 3n memiliki peringkat tinggi di antara model berpemilik dan model terbuka populer.

Gemma 3n memanfaatkan inovasi Google DeepMind yang disebut Per-Layer Embeddings (PLE) yang mengurangi penggunaan RAM secara signifikan. Meskipun jumlah parameter mentahnya adalah 5B dan 8B, inovasi ini memungkinkan Anda menjalankan model yang lebih besar pada perangkat seluler atau live-stream dari cloud, dengan overhead memori yang setara dengan model 2B dan 4B. Ini berarti model ini bisa beroperasi dengan jejak memori dinamis hanya sebesar 2GB dan 3GB. Pelajari lebih lanjut dalam dokumentasi kami.

Dengan menjelajahi Gemma 3n, developer bisa mendapatkan pratinjau awal dari kemampuan inti model terbuka dan inovasi arsitektur berorientasi seluler yang akan tersedia di Android dan Chrome dengan Gemini Nano.

Dalam postingan ini, kita akan menjelajahi kemampuan baru Gemma 3n, pendekatan kami terhadap pengembangan secara bertanggung jawab, dan bagaimana Anda bisa mengakses pratinjau hari ini.

Kemampuan Utama Gemma 3n

Dirancang untuk pengalaman AI yang cepat dengan sedikit jejak memori yang berjalan secara lokal, Gemma 3n memberikan:

Performa & Efisiensi di Perangkat yang Dioptimalkan: Gemma 3n mulai merespons sekitar 1,5x lebih cepat di perangkat seluler dengan kualitas yang jauh lebih baik (dibandingkan dengan Gemma 3 4B) dan jejak memori yang lebih kecil yang dicapai melalui inovasi seperti Per Layer Embeddings, berbagi KVC, dan kuantisasi aktivasi lanjutan.

Fleksibilitas Banyak dalam 1: Model dengan jejak memori aktif 4B yang secara native menyertakan submodel jejak memori aktif 2B termutakhir bersarang (berkat pelatihan MatFormer). Ini memberikan fleksibilitas untuk secara dinamis mengompromikan performa dan kualitas dengan cepat tanpa harus menghosting model terpisah. Kami juga memperkenalkan kemampuan mix'n'match di Gemma 3n untuk secara dinamis membuat submodel dari model 4B yang bisa secara optimal sesuai dengan kasus penggunaan khusus Anda -- dan kompromi kualitas/latensi yang terkait. Nantikan informasi lebih lanjut tentang penelitian ini dalam laporan teknis kami yang akan datang.

Siap Offline & yang Mengutamakan Privasi: Eksekusi lokal memungkinkan fitur yang menghargai privasi pengguna dan berfungsi dengan andal, bahkan tanpa koneksi internet.

Pemahaman Multimodal yang Diperluas dengan Audio: Gemma 3n bisa memahami dan memproses audio, teks, dan gambar, serta menawarkan pemahaman video yang ditingkatkan secara signifikan. Kemampuan audionya memungkinkan model ini melakukan Pengenalan Ucapan Otomatis (transkripsi) dan Penerjemahan (ucapan ke teks terjemahan) berkualitas tinggi. Selain itu, model ini menerima input tersisip di berbagai modalitas, sehingga memungkinkan pemahaman interaksi multimodal kompleks. (Implementasi publik akan segera hadir)

Peningkatan Kemampuan Multibahasa: Peningkatan performa multibahasa, khususnya dalam bahasa Jepang, Jerman, Korea, Spanyol, dan Prancis. Performa yang kuat tercermin pada tolok ukur multibahasa seperti 50,1% pada WMT24++ (ChrF).

Chart ini menunjukkan performa MMLU vs ukuran model dari kemampuan mix-n-match (prapelatihan) Gemma 3n.

Membuka Pengalaman Baru Kapan Saja Di Mana Saja

Gemma 3n akan mendukung gelombang baru aplikasi cerdas yang dapat digunakan di mana saja dengan memungkinkan developer:

Membangun pengalaman interaktif secara langsung yang memahami dan merespons isyarat visual dan pendengaran secara real-time dari lingkungan pengguna.

2. Mendukung pemahaman yang mendalam dan pembuatan teks kontekstual menggunakan input audio, gambar, video, dan teks yang digabungkan—semuanya diproses secara pribadi di perangkat.

3. Mengembangkan aplikasi audio-sentris lanjutan, termasuk transkripsi ucapan real-time, terjemahan, dan interaksi berbasis suara yang kaya.

Berikut adalah ringkasan dan jenis pengalaman yang bisa Anda bangun:

Link to Youtube Video (visible only when JS is disabled)

Membangun Secara Bertanggung Jawab, Bersama-sama

Komitmen kami terhadap pengembangan AI secara bertanggung jawab adalah segalanya. Gemma 3n, seperti semua model Gemma, menjalani evaluasi keamanan yang ketat, tata kelola data, dan penyesuaian keselarasan dengan kebijakan keamanan kami. Kami melakukan pendekatan model terbuka dengan penilaian risiko yang cermat, dan terus menyempurnakan praktik kami seiring dengan perkembangan lanskap AI.

Mulai: Pratinjau Gemma 3n Hari Ini

Kami sangat antusias dapat menghadirkan Gemma 3n ke tangan Anda melalui pratinjau mulai hari ini:

Akses Awal (Tersedia Sekarang):

Eksplorasi berbasis cloud dengan Google AI Studio: Cobalah Gemma 3n secara langsung dalam browser Anda di Google AI Studio – tidak perlu pengaturan. Jelajahi kemampuan input teksnya secara instan.

Pengembangan di Perangkat dengan Google AI Edge: Untuk developer yang ingin mengintegrasikan Gemma 3n secara lokal, Google AI Edge menyediakan alat dan library. Anda bisa memulai dengan kemampuan pemahaman/pembuatan teks dan gambar hari ini.

Gemma 3n menandai langkah berikutnya dalam mendemokratisasi akses ke AI tercanggih yang efisien. Kami sangat bersemangat menantikan kreasi yang akan Anda buat seiring dengan semakin tersedianya teknologi ini, dimulai dengan pratinjau hari ini.

Jelajahi pengumuman ini dan semua update Google I/O 2025 di io.google mulai tanggal 22 Mei.