LLM의 다국어 혁신: 개방형 모델이 글로벌 커뮤니케이션을 지원하는 방법

2025년 6월 23일
Glenn Cameron Product Marketing Manager AI Developer

Kaggle에서 Gemma를 활용한 글로벌 커뮤니케이션 활성화 대회에서 보여준 여러 커뮤니티의 놀라운 참여 열기를 축하할 수 있어 정말 기쁩니다! 개발자들은 최첨단 대형 언어 모델(LLM)을 다양한 문화적, 언어적 컨텍스트에 맞춰 조정하는 AI 분야에서의 중요한 과제 해결에 도전했습니다.

모델은 학습 및 평가 데이터 세트에서 주로 사용되는 언어로 인해 리소스가 풍부한 언어에 대해 편향을 나타내는 경우가 많습니다. 이로 인해 리소스가 부족한 언어에서는 최신 AI 발전이 실현되지 않아 성능 격차가 발생할 수 있습니다. 또한, 이러한 모델은 언어에 대한 이해가 부족할 뿐만 아니라 커뮤니티에 도움이 될 수 있는 문화적 관련 리소스도 부족할 수 있습니다.

저희는 언어, 가사, 고대 문자 등의 번역을 위해 커뮤니티가 고안한 창의적인 솔루션에 깊은 인상을 받았습니다.


혁신가들에게 보내는 경의

많은 개발자가 수백 개의 작품을 제출해 LLM의 혁신적인 힘을 세계 곳곳의 다양한 언어에 적용하는 방법을 보여주었습니다. 각 프로젝트는 맞춤형 데이터 세트와 효율적인 후속 학습 방법을 활용하여 Gemma를 명령 수행, 번역, 특정 도메인에 맞도록 조정했습니다. Kaggle의 노트북을 탐색해서 이러한 기법이 실제로 어떻게 활용되는지 확인하고 여러분의 다국어 프로젝트에 활용해 보면 좋을 것 같습니다.


Gemma 2 스와힐리어

1위를 차지한 프로젝트는 Gemma를 스와힐리어 이해에 맞게 조정함으로써 2억 명 이상의 스와힐리어 사용자를 향한 새로운 가능성을 열었습니다. Gemma 모델은 2B, 9B 및 27B 매개 변수 크기에 대한 매개 변수 효율적 미세 조정 기법을 사용하여 미세 조정되었습니다.

미세 조정의 핵심은 Gemma의 '명령-응답 형식에 있어서 놀라운 유연성'입니다. 모델은 최소한의 구조적 제약으로 명령을 구문 분석하고 다양한 입력 형식에 걸쳐 일관된 응답을 생성할 수 있습니다.


Kyara: LLM 미세 조정을 위한 검색 증강

Kyara(Knowledge Yielding Adaptive Retrieval Augmentation: 지식 생성 적응형 검색 증강)는 LLM 미세 조정을 위한 검색 프로세스를 탐구하여, 중국어 번체로 정보에 기반한 응답을 생성하는 Gemma의 능력을 향상시키는 방법을 보여주었습니다.

인간이 개념을 연결하여 학습하는 방식에서 영감을 얻은 이 프로젝트는 그래프에 기반한 지식 검색 방식을 사용하여 고품질의 질문/답변(Q& A) 데이터 세트를 구축하는 데 중점을 두었습니다.


ArGemma: 아랍어를 위한 미세 조정 Gemma

이 프로젝트에서는 번역, 요약, 스토리텔링, 대화 생성 등의 아랍어 작업에 맞게 Gemma를 미세 조정했습니다.

또한, 풍부한 역사를 가진 언어로서, 이 프로젝트는 문학 작품과 예술에 사용된 고대 아랍어에 대한 이해를 향상시키고 현대 표준 아랍어와 고대 아랍어 사이의 과제를 연결하기 위한 다양한 기술을 사용하는 것이 목표입니다.


이탈리아어 및 그 이상을 위한 Gemma 후속 학습

이 프로젝트는 할루시네이션과 치명적인 망각과 같은 함정을 해결하는 비용 효율적인 후속 학습 접근 방식을 사용하여 Gemma의 이탈리아어 이해력을 향상시키는 데 중점을 두었습니다.

2B 및 9B 모델 크기는 번역의 품질을 보장하기 위해 LLM을 평가자로 활용해 생성한 새로운 명령 튜닝 데이터 세트를 포함한 다양한 데이터를 기반으로 미세 조정되었습니다.


고대 중국어 전문가: Gemma 2>ChatGPT

이 프로젝트는 고대 중국어 문자를 이해하고 번역문을 생성하기 위해 Gemma를 사용해 '고대 중국어 전문가'를 개발했습니다. 이는 역사적인 문화 보존을 위한 LLM의 잠재력을 잘 보여주었습니다.

이 모델은 언어적 이해 향상을 위해 포괄적인 데이터 세트로 미세 조정되었으며, 후속 학습에는 향상된 지시 사항 준수를 위한 기법이 포함됩니다.


Lyric-Gemma 2: 하나의 노래, 다양한 스토리

이 프로젝트는 AI 기반 가사 번역 특유의 미묘한 뉘앙스 문제 해결에 나서서, 문화적 요소와 상징적 언어에 대한 Gemma의 민감도를 높이는 동시에 원곡의 리듬에 충실하도록 했습니다.

다국어 데이터 세트에는 중요한 문화적 컨텍스트, 감정적 어조, 리드미컬한 특징을 포착하기 위해 주석이 달린 가사 번역이 포함되어 있어 모델이 가사 내용의 예술적 깊이를 파악하고 재현할 수 있습니다.


요미가나용 Gemma 2 JPN 미세 조정

이 프로젝트는 Gemma 2 JPN을 조정해 일본어 텍스트 읽기 보조 도구인 요미가나/후리가나를 생성하고 복잡한 일본어 한자인 '간지'를 접하는 언어 학습자 또는 독자를 도와줍니다.

현재 다른 규칙 기반 도구가 존재하지만, LLM은 보기 드문 간지를 더 잘 인식하고 "문장의 컨텍스트를 해석하여 다음음 간지의 의미를 정확하게 구별할 수 있게 해 줍니다." 노트북은 또한 단일 번역 작업에 초점을 맞춘 학습 때문에 대화 기능이 저하되었다고 언급했습니다.


수학적 사고: 힌디어를 위해 Gemma 2 미세 조정

이 프로젝트는 힌디어에서 숫자를 나타내는 단어에 대한 Gemma의 수학적, 논리적 이해를 향상시킵니다. 힌디어 숫자 단어는 복잡한 단어 형식(예: "200"을 ""으로 또는 "2.5"을 ""으로 표현)으로 인해 모델이 이를 해석하는 데 어려움을 겪습니다.

9B 모델은 다양한 질문 유형에 대한 인간 전문가의 검증을 거쳐 선별된 데이터 세트를 기반으로 미세 조정되어, AI 기반 교육 도구, 자동 튜터링, 지역화된 콘텐츠에 활용할 수 있습니다.


Gemma-2-9b-kk-it: 카자흐어 번역 배우기

이 프로젝트는 카자흐어 번역 작업을 위해 Gemma 2 9B 모델을 미세 조정했습니다. 세 가지 문자(키릴어, 라틴어 및 아랍어)로 표기되는 카자흐어에서 키릴 문자 버전은 영어보다 약 2배 많은 토큰이 필요하므로 제한된 리소스로 훈련해야 하는 어려움이 있습니다.

모델 성능에 있어 27B Gemma 변형과 Google 번역보다 더 나은 벤치마크를 보여 주었으며, 비용 효율적인 접근 방식을 사용하여 리소스가 부족한 언어에 대해 LLM을 조정하는 방법을 입증했습니다.


THEODEN: 고대 영어 Gemma

이 프로젝트를 통해 Gemma는 영어의 가장 초기에 기록된 형태인 고대 영어를 이해하고 번역할 수 있습니다. 역사적인 언어와 제한된 공개 데이터를 다루는 과제를 해결하는 데 도움을 주기 위해 고대 영어-현대 영어 쌍이 있는 사용자 정의 데이터 세트를 만들었습니다.

또한 노트북은 오픈 소스 아이슬란드어 텍스트 음성 변환 모델을 기반으로 한 보너스 오디오 생성 구성 요소를 갖추고 있어 음성이 실제로 어떻게 들렸는지에 대한 근사치를 제공합니다.


훌륭한 프로젝트 10개 더 보기

  • Gemma PT: 이 프로젝트는 포르투갈어의 편견과 잘못된 정보를 탐지하기 위해 ShieldGemma 콘텐츠 분류기를 미세 조정했습니다.


Gemma 3를 기대하며

전 세계적으로 7,000개가 넘는 언어가 사용되는 것을 고려할 때, AI가 소통의 공백을 메울 수 있는 잠재력은 무한합니다. Gemma 개방형 모델 제품군은 개발자가 고성능 모델을 리소스가 부족한 언어에 맞게 조정할 수 있도록 강력한 기반을 제공합니다.

Kaggle 커뮤니티가 Gemma 2를 다양한 언어에 맞춰 적용하는 과정에서 보여준 혁신과 헌신은 정말 고무적입니다. AI가 모두를 위한 글로벌 커뮤니케이션을 지원하는 미래를 지속적으로 구축해 나감에 따라 140개 이상의 언어에 대해 사전 학습된 지원을 제공하는 Gemma 3에 큰 기대를 걸고 있으며 이는 더욱 발전된 서비스 제공을 위한 훌륭한 기반이 될 것입니다.

개발자들이 Gemma의 가능성을 탐색하고, 데이터 세트와 모델을 다른 사용자와 공유하며, 다국어 AI를 함께 발전시켜 나가기를 바랍니다.

OSZAR »