Bagaimana Itu Dibuat: Little Language Lessons menggunakan kemampuan multibahasa Gemini untuk mempersonalisasi pembelajaran bahasa

29 APRIL 2025

Sebagai seorang engineer, saya selalu terpesona dengan bahasa—baik bahasa yang kita gunakan untuk membuat kode maupun bahasa yang kita gunakan untuk berbicara. Mempelajari bahasa pemrograman baru biasanya dimulai dengan membuat sesuatu yang nyata, langsung mempraktikkan teori. Sebaliknya, belajar bahasa lisan baru sering kali terjadi dalam ruang hampa—melalui buku teks atau latihan yang terasa terputus dari situasi di mana bahasa itu benar-benar penting. Seperti halnya pemrograman, bahasa paling baik dipelajari melalui konteks yang bermakna: percakapan yang kita lakukan, objek di sekitar kita, momen-momen yang kita hadapi. Tidak seperti alat pembelajaran tradisional, AI bisa beradaptasi dengan konteks pelajar, sehingga sangat cocok untuk membantu kita mempraktikkan bahasa dengan cara yang lebih natural dan personal.

Hal ini mendorong saya, bersama dengan sekelompok kecil rekan kerja, untuk bereksperimen dengan Gemini API, yang memungkinkan developer mengakses model generatif terbaru dari Google. Hasilnya adalah Little Language Lessons: koleksi tiga eksperimen pembelajaran berukuran kecil, yang semuanya didukung oleh model Gemini dari Google.

Eksperimen 1, Pembelajaran Kecil: Mempelajari apa yang Anda butuhkan, saat Anda membutuhkannya

Salah satu bagian yang paling membuat frustrasi dalam mempelajari bahasa adalah ketika Anda berada pada situasi saat Anda membutuhkan kata atau frasa tertentu—dan kata atau frasa tersebut belum pernah Anda pelajari.

Itulah ide di balik Pembelajaran Kecil. Anda mendeskripsikan sebuah situasi—mungkin “menanyakan arah” atau “menemukan paspor yang hilang”—dan menerima kosakata, frasa, dan tips tata bahasa berguna yang disesuaikan dengan konteks tersebut.

Kami dapat mencapai hal ini dengan menggunakan urutan langkah prompt yang sederhana. Prompt dimulai dengan pembukaan pengaturan persona yang terlihat seperti ini:

You are a(n) {target language} tutor who is bilingual in {target language} and
 {source language} and an expert at crafting educational content that is 
custom-tailored to students' language usage goals.

Dalam prompt ini dan semua prompt selanjutnya, kami memanfaatkan kemampuan Gemini untuk memberikan output sebagai JSON terstruktur, mendefinisikan hasil yang diinginkan sebagai daftar kunci dalam sebuah objek:

For the given usage context, provide a JSON object containing two keys:
"vocabulary" and "phrases".
 
The value of "vocabulary" should be an array of objects, each containing three 
keys: "term", “transliteration”,  and "translation".
 
The value of "term" should be a {target language} word that is highly relevant 
and useful in the given context.
If the language of interest is ordinarily written in the Latin script, the 
value of “transliteration” should be an empty string. Otherwise, the value of
“transliteration” should be a transliteration of the term.
The value of "translation" should be the {source language} translation of 
the term.
 
...

Secara total, setiap pelajaran adalah hasil dari dua panggilan ke Gemini API. Satu prompt menangani pembuatan semua kosakata dan frasa, dan prompt lainnya menangani pembuatan topik tata bahasa yang relevan.

Dan di akhir setiap prompt, kami menginterpolasi konteks penggunaan yang diinginkan pengguna seperti berikut ini:

INPUT (usage context): {user input}

Eksperimen 2, Slang Hang: Belajar agar tidak terdengar seperti buku teks

Ada momen dalam perjalanan mempelajari bahasa ketika Anda mulai merasa nyaman. Anda bisa melakukan percakapan, mengekspresikan diri, dan hampir semuanya berjalan lancar. Namun kemudian Anda menyadari, Anda masih terdengar... aneh. Terlalu formal. Kaku.

Kami membangun Slang Hang untuk membantu mengatasi hal ini. Idenya sederhana: membuat percakapan realistis antara penutur asli dan biarkan pengguna belajar darinya. Anda bisa menyaksikan dialog yang berlangsung, mengungkapkan satu pesan dalam satu waktu dan membongkar istilah yang tidak dikenal saat mereka muncul.

Pembukaan untuk prompt Slang Hang terlihat seperti ini:

You are a screenwriter who is bilingual in {source language} and 
{target language} and an expert and crafting captivating dialogues. 
You are also a linguist and highly attuned to the cultural nuances that 
shape natural speech.

Meskipun pengguna hanya dapat menampilkan pesan satu per satu, semua—pengaturan, percakapan, penjelasan untuk istilah yang disorot—dihasilkan dari satu panggilan ke Gemini API. Kami mendefinisikan struktur output JSON seperti ini:

Generate a short scene that contains two interlocutors speaking authentic 
{target language}. Give the result as a JSON object that contains two keys: 
"context" and "dialogue".
 
The value of "context" should be a short paragraph in {SOURCE LANGUAGE} 
that describes the setting of the scene, what is happening, who the speakers 
are, and speakers' relationship to each other.
 
The value of "dialogue" should be an array of objects, where each object 
contains information about a single conversational turn. Each object in the 
"dialogue" array should contain four keys: "speaker", "gender", "message", 
and "notes".
 
...

Dialog dibuat dalam bahasa target pengguna, tetapi pengguna juga bisa menerjemahkan pesan ke dalam bahasa asli mereka (fungsi yang didukung oleh Cloud Translation API).

Salah satu aspek yang lebih menarik dari eksperimen ini adalah elemen penceritaan yang muncul secara tiba-tiba. Setiap adegan sangatlah unik dan tercipta begitu saja—bisa saja seorang pedagang kaki lima yang sedang mengobrol dengan pelanggannya, dua orang rekan kerja yang bertemu di kereta bawah tanah, atau bahkan sepasang sahabat yang sudah lama tidak berjumpa, yang secara tak terduga bertemu kembali di sebuah pameran hewan peliharaan eksotis.

Meskipun demikian, kami menemukan bahwa eksperimen ini cukup rentan terhadap kesalahan akurasi: ia terkadang salah menggunakan ekspresi dan bahasa gaul tertentu, atau bahkan mengada-ada. LLM masih belum sempurna, dan karena itu sangatlah penting untuk melakukan referensi silang dengan sumber-sumber tepercaya.

Eksperimen 3, Word Cam: Belajar dari sekeliling Anda

Terkadang, Anda hanya perlu kata untuk hal-hal di depan Anda. Sungguh merendahkan hati ketika menyadari betapa Anda tidak tahu cara mengatakannya dalam bahasa target. Anda tahu kata untuk “jendela”, tetapi bagaimana Anda mengatakan “ambang jendela”? Atau “tirai”?

Word Cam mengubah kamera Anda menjadi penolong kosakata instan. Jepret foto, dan Gemini akan mendeteksi objek, memberinya label dalam bahasa target Anda, dan memberikan kata-kata tambahan yang bisa Anda gunakan untuk mendeskripsikannya.

Eksperimen ini memanfaatkan kemampuan visi Gemini untuk mendeteksi objek. Kami mengirimkan gambar kepada model dan meminta koordinat kotak pembatas dari berbagai objek di dalam gambar tersebut:

Provide insights about the objects that are present in the given image. 
Give the result as a JSON object that contains a single key called "objects".
 
The value of "objects" should be an array of objects whose length is no more 
than the number of distinct objects present in the image. Each object in the 
array should contain four keys: "name", "transliteration", "translation", and 
"coordinates".
 
...
 
The value of "coordinates" should be an integer array representing the 
coordinates of the bounding box for the object. Give the coordinates as [ymin, 
xmin, ymax, xmax].

Setelah pengguna memilih sebuah objek, kami mengirim gambar yang dipotong ke Gemini dalam prompt terpisah dan memintanya untuk membuat deskriptor objek tersebut dalam bahasa target pengguna:

For the object represented in the given image, provide descriptors 
that describe the object. Give the result as a JSON object that contains 
a single key called "descriptors".
 
The value of "descriptors" should be an array of objects, where each 
object contains five keys: "descriptor", "transliteration", "translation", 
"exampleSentence", "exampleSentenceTransliteration", and 
"exampleSentenceTranslation".
 
...

Pada ketiga eksperimen, kami juga mengintegrasikan fungsionalitas text-to-speech, sehingga pengguna dapat mendengar pengucapan dalam bahasa target mereka. Kami melakukannya dengan Cloud Text-to-Speech API, yang menawarkan suara yang terdengar natural untuk bahasa yang digunakan secara luas, tetapi memiliki opsi terbatas untuk bahasa yang kurang umum. Aksen regional tidak terwakili dengan baik, dan karenanya terkadang ada ketidakcocokan antara dialek yang dipilih pengguna dan aksen saat pemutaran.

Apa berikutnya?

Meskipun Little Language Lessons hanyalah sebuah eksplorasi awal, eksperimen seperti ini menunjukkan kemungkinan yang menarik untuk masa depan. Upaya ini juga memunculkan beberapa pertanyaan penting: bagaimana rasanya berkolaborasi dengan ahli bahasa dan pendidik untuk mempertajam pendekatan yang kami investigasi dalam Little Language Lessons? Lebih luas lagi, bagaimana AI bisa membuat pembelajaran mandiri semakin dinamis dan dipersonalisasi?

Untuk saat ini, kami terus mengeksplorasi, melakukan iterasi, dan mengajukan pertanyaan. Jika Anda ingin melihat lebih banyak eksperimen seperti ini, kunjungi labs.google.com.