UK Flag EN UA Flag UA

MamayLM v1.0
Перша Відкрита Мультимодальна Українська LLM

MamayLM Thumbnail

MamayLM тепер може бачити! Ми випускаємо MamayLM v1.0, найефективнішу українську мовну модель, яка перевершує всі моделі подібного розміру як українською, так і англійською мовами, при цьому відповідаючи або перевершуючи здібності у 5+ разів більших моделей.

Ми раді оголосити про випуск MamayLM v1.0, нової сучасної великої мовної моделі (LLM), орієнтованої на українську мову. Ми випускаємо модель у двох розмірах – 4B та 12B – обидві є економічно ефективними, швидкими, мультимодальними та можуть працювати на одному графічному процесорі, проте ефективні як українською, так і англійською мовами. Модель має потужні можливості, що перевершують відкриті моделі подібних розмірів обома мовами, водночас відповідаючи або переганяючи набагато більші моделі. MamayLM є результатом дослідження інституту INSAIT - перша версія моделі MamayLM v0.1 отримала широке визнання, маючи понад 10,000 завантажень та багато позитивних відгуків, що дозволило сформувати фундамент для подальшого дослідження в цьому напрямку. Нова версія має такі оновлення:

  1. Потужніша базова модель: Використання моделей Gemma 3 як базової моделі забезпечує покращену продуктивність та можливості для завдань українською.
  2. Мультимодальність: Модель розроблена для підтримки кількох модальностей, включаючи текст та зображення, що забезпечує ширший спектр застосувань та варіантів використання як англійською, так і українською мовами. Модель тепер демонструє високі можливості обробки задач з візуальними вхідними даними та здатність розуміти запитання з зображеннями на місцеву українську тематику.
  3. Довший контекст: Нова версія адаптована під обробку довших контекстів, що дозволяє їй краще розуміти та генерувати текст зі складнішими залежностями та зв'язками. Це дає моделі можливість обробляти та аналізувати набагато більші документи (або декілька документів) одночасно.

Збагачення навчальних даних для української мови

У нашій версії v0.1 ми успішно адаптували Gemma 2 до української мови, спираючись на наше дослідження з перенесення мовних знань. Тепер, взявши за основу модель Gemma 3 з її ще потужнішими багатомовними (та мультимодальними!) можливостями, ми застосували схожий процес підготовки тренувальних даних, безперервного попереднього навчання і подальшого донавчання, з деякими помітними покращеннями в різних аспектах, щоб адаптувати Gemma 3 4B та 12B до української мови, використовуючи загалом 81 мільярд токенів українського та англійського тексту.

Етап попереднього навчання

У попередній версії наші дані для попереднього навчання українською мовою базувалися на датасетах FineWeb2, Malyuk та CulturaX. Для поточного релізу v1.0 ми перейшли на датасет Kobza, який побудований на тих самих джерелах, але також інтегрує HPLT. Kobza також включає нечітку дедуплікацію та використовує ширший спектр веб-даних, оскільки HPLT дотримується іншого процесу та збирає багатомовний контент з різноманітних джерел. Оскільки FineWeb2 та CulturaX покладаються на дані, що досить перетинаються між собою, та мають схожу свіжість, ми обрали частини FineWeb2 та UberText (українські новини) в межах датасету Kobza, щоб максимізувати інформаційне покриття. Такий підхід забезпечує більшу та різноманітнішу основу для нашого корпусу попереднього навчання. Додатково ми застосували техніку «регідратації» (донасичення) даних, включивши дані з української Вікіпедії, що забезпечило більший акцент на високоякісному контенті.

Під час попереднього навчання ми використовували пакування за найкращим збігом (best-fit packing), щоб укомплектувати послідовності до бажаної довжини контексту, зберігаючи структуру та зв'язність даних з мінімальними порушеннями. Цей підхід покращує навчання на довшому контексті та вдосконалює здатність до мовного мислення. Щоб запобігти катастрофічному забуванню, ми включаємо невелику частку англомовних даних, таких як англійська Вікіпедія, Smoltalk та Mixture of Thoughts.

Етап донавчання

Подібно до версії v0.1, на етапі донавчання ми виділили теми, пов'язані з українською історією та культурою, що дозволило згенерувати синтетичний набір даних українських пар формату «питання-відповідь» за допомогою дистиляції знань з більшої моделі. Ми також застосували більш потужні LLM для перекладу галузевих даних українською мовою, покращуючи як кількість, так і якість цільовою мовою.

Наш набір даних для подальшого донавчання (SFT) включає різноманітні відкриті датасети, такі як Nemotron SFT та Post-Training від NVIDIA, OpenCoder (OPC) SFT, Aya Collection та інші. Ми також окремо визнаємо значний внесок української NLP спільноти, зокрема авторів Spivavtor, UAlpaca, UA-Squad, Ukrainian StackExchange, Crimean Tatar Parallel Corpora та UA-Lawyer QA, які посилюють потенціал українського донавчання.

Адаптація Gemma 3 до української мови

Процес тренування

На етапі попереднього навчання ми розділили набір даних на дві частини на основі різних великих веб-датасетів, повторно вводячи менші вузьконаправлені набори даних в обидві частини. На основі тренування з різними частинами набору тренувальних даних ми використали техніку «супу моделей» (model souping) для покращення продуктивності попередньо навченої моделі — це дозволило нам значно підвищити ефективність попереднього навчання.

На етапі донавчання ми тренували донавчені моделі на більших вузьких за тематикою даних, де кожна орієнтована окремо на англійську та українську мови, а потім об'єднали їх у фінальну, кращу версію. Такий роздільний підхід дозволяє нам ще більше підвищити продуктивність обома мовами завдяки наявності даних, орієнтованих на конкретну мову. Ми також застосували передову техніку злиття моделей, імітуючи заміну шарів (Layer Swapping), для більш точного вилучення мовних можливостей. Крім того, ми враховуємо висновки щодо мовного дисбалансу та злиття моделей, які підкреслюють вплив пропорцій змішування даних на продуктивність моделі.

Даний метод дозволяє нам не лише зберегти візуальні можливості та здатність працювати з довгим контекстом, але й покращити їх для обох мов без використання спеціальних наборів даних для цих областей. Ми вважаємо, що візуальна багатомовна продуктивність сильно залежить від мовних можливостей моделі в даних мовах, тому ми спостерігаємо покращення на візуальних бенчмарках без навчання на даних «текст-зображення».

Мультимодальна ефективність

MamayLM v1.0 тепер підтримує візуальні вхідні дані разом з текстовими завдяки мультимодальній підтримці моделей Gemma 3. Це значний прогрес порівняно з попередньою версією, яка була обмежена лише обробкою тексту. Незважаючи на те, що наш тренувальний корпус був зосереджений лише на текстових даних, MamayLM успадкував можливості візуального розуміння від базової моделі, які нам вдалося зберегти під час навчання. В результаті натренована модель демонструє покращені результати візуальної оцінки як для англійської, так і для української без використання будь-яких навчальних даних із зображеннями! Це можна пояснити внутрішньою архітектурою моделі, де мультимодальні можливості найбільше залежать від лінгвістичних здібностей саме текстової моделі, тоді як візуальний адаптер використовується лише для обробки картинок у форматі, зрозумілому для основної мовної моделі. Покращені мультимодальні здібності MamayLM v1.0 відкривають нові можливості для задач, які вимагають розуміння та генерації контенту на основі як текстових, так і візуальних вхідних даних, що корисно для адміністративного та різних інших випадків використання.

MamayLM Visual Questions Answering
MamayLM тепер може розуміти та відповідати на питання у візуальному форматі, специфічні для української мови

Оцінка можливостей MamayLM v1.0 12B

Ми оцінили MamayLM на наборі стандартних англійських бенчмарків, їх перекладеній версії українською мовою, а також на зібраних нами специфічних для української мови бенчмарках:

  1. ЗНО: обов'язкове тестування знань української шкільної програми з української мови та літератури, історії, математики та географії
  2. Winogrande challenge: тестування загальних знань та розуміння світу
  3. Hellaswag: тестування на завершення речень
  4. ARC Easy/Challenge: тестування логічного мислення
  5. TriviaQA: тестування ерудиції
  6. GSM-8K: розв'язання задач з вибором відповіді зі шкільної математики
  7. MMLU: тестування знань з великої кількості тем
  8. IFEval: тестування навичок слідування інструкціям

Ми взялися за завдання знайти найкращий метод перекладу для англомовних бенчмарків. Хоча певні зусилля в цьому напрямку вже були зроблені, ми виявили, що вони були недостатньо масштабними, а українські переклади можна було покращити. Ми визначили дві ключові проблеми в перекладі бенчмарків:

  1. розділення питання та відповіді під час перекладу;
  2. якість перекладу, що сильно залежить від few-shot промптингу або додаткової перевірки виводу моделі.

Для вирішення цих проблем ми розробили фреймворк для перекладу, який зберігає контекст як питань, так і відповідей. Він також використовує мультисемплінг та оцінку кандидатів на переклад для оптимізації балансу між якістю машинного перекладу та участю людини, забезпечуючи максимальну ефективність. Усі адаптовані бенчмарки для української мови доступні у відповідному репозиторії на GitHub.

Продуктивність у порівнянні з моделями схожого розміру

Як показано на графіках нижче, на всіх бенчмарках MamayLM перевершує всі моделі схожого розміру (навіть перевершуючи набагато більші 70B моделі українською!). Це досягається як англійською, так і українською мовами завдяки особливому методу, використаному для навчання MamayLM (згадано вище).

MamayLM оцінювання англійською
Середня оцінка серед використаних текстових англомовних тестів
MamayLM оцінювання українською
Середня оцінка серед використаних українськомовних тестів

Продуктивність у порівнянні з більшими моделями

Ми також оцінили MamayLM v1.0 у порівнянні з сучасними передовими LLM. Вражаюче, наша модель перевершує моделі, що в 6 разів більші, на різноманітних бенчмарках, включаючи ті, що специфічні для українського контексту, як показано на графіку нижче.

MamayLM Ukrainian evaluation
Результати тестування на окремих використаних текстових тестах українською та їх порівняння з великими моделями

Продуктивність на Зовнішньому незалежному оцінюванні (ЗНО)

Важливо, що, як показано на графіку нижче, MamayLM v1.0 досягає найвищого балу на іспитах ЗНО (Зовнішнє незалежне оцінювання) серед моделей схожого розміру, водночас перевершуючи набагато більші моделі, включаючи Gemma 3 27B, Llama 3.1 70B та Qwen 2.5 72B.

MamayLM оцінювання на ЗНО
Результати оцінювання моделей на Зовнішньому Незалежному Оцінюванні (ЗНО)

Результати показують, що моделі MamayLM лідирують в ЗНО тестуваннях в порівнянні з іншими відкритими альтернативами. Хоча версія v0.1 досягла видатного результату, який досить важко перевершити, наша нова версія має покращену якість в усіх інших аспектах ефективності українською і тепер включає вдосконалену візуальну підтримку.

Продуктивність на візуальних бенчмарках

Ми також оцінили MamayLM v1.0 на візуальних бенчмарках, де вона демонструє високу продуктивність як українською, так і англійською мовами. Здатність моделі розуміти та генерувати текст на основі візуальних даних підкреслює її універсальність та ефективність у різних модальностях.

Для оцінки продуктивності англійською мовою ми використовуємо оригінальні бенчмарки MMMU, де наша навчена модель показує покращену продуктивність у порівнянні з базовою версією.

MamayLM оцінювання на MMU
Результати оцінювання моделей на англомовних тестах MMMU з візуальними питаннями

Для моніторингу візуальної продуктивності українською мовою ми використовували ZNO-Vision для оцінки можливостей моделі у розумінні місцевих культурних та історичних знань, а також інших галузевих можливостей українською мовою. Наша модель також демонструє позитивні покращення після навчання порівняно з базовою моделлю.

MamayLM оцінювання на MMZNO
Результати оцінювання моделей на Зовнішньому Незалежному Оцінюванні (MMZNO) з візуальними питаннями

Генеративна продуктивність порівняно з більшими моделями

На додаток до тестів, ми оцінили MamayLM v1.0 з точки зору генеративної продуктивності на 500 складних питаннях. Результати показують, що наша модель значно перевершує продуктивність набагато більших моделей як у лінгвістичних якостях генерованого українського тексту, так і в самому змісті. Щоб уникнути упередженості та отримати найкращі можливі оцінювання, ми використовуємо Gemini 2.0 Flash, який відмінно володіє українською мовою та розуміє культурні та лінгвістичні особливості.

Ми оцінюємо продуктивність моделі на фактичних українських даних запитань-відповідей, де наша модель показує позитивну продуктивність проти набагато більших моделей, а також GPT-5-mini та Claude 3.7 Sonnet.

MamayLM оцінювання на UKR-GEMMA
Результати оцінювання моделей на питаннях з відкритою відповіддю на українську тематику

Ми також перевіряємо продуктивність моделі на m-ArenaHard (українською), розробленому для оцінки більш специфічних знань у математиці та кодуванні, де наша модель демонструє так само хорошу продуктивність проти набагато більших моделей.

MamayLM оцінювання на UKR-GEMMA
Результати оцінювання моделей на питаннях з відкритою відповіддю m-ArenaHard

Оцінка можливостей MamayLM v1.0 4B

Ми оцінюємо можливості MamayLM v1.0 4B, використовуючи ті самі тести, спрямовані на оцінку генерації тексту, розуміння та знань з конкретних сфер для української та англійської мов. Модель показує сильну продуктивність порівняно з моделями подібного розміру, демонструючи свою ефективність у різних завданнях.

MamayLM оцінювання на 4B
Результати оцінювання на українськомовних тестах для MamayLM v0.1 4B та моделей схожих розмірів

Переваги MamayLM

У сучасному технологічному прогресі потреба у швидких, адаптивних та локально оптимізованих рішеннях стала критично важливою. Доступна у розмірах 4B та 12B, MamayLM є відносно компактною і стабільно перевершує моделі, що в 5+ разів більші українською, одночасно зберігаючи конкурентоспроможність англійською. Її здатність працювати на одному графічному процесорі дозволяє швидше адаптуватися, знижує операційні витрати та спрощує розгортання, що робить її особливо придатною для середовищ з обмеженими ресурсами та мінливими вимогами. Крім того, нова версія тепер має візуальні можливості та здатність працювати з довгим контекстом з підвищеною продуктивністю для обох мов.

Це надає значні переваги для українських місцевих бізнесів та державних установ, які можуть інтегрувати передові технології штучного інтелекту без непомірних витрат або складних технічних вимог, що зазвичай пов'язані з більшими системами. Наявність меншого розміру надає більше гнучкості у розгортанні та масштабуванні для менших компаній, які не мають розгалуженої інфраструктури. Крім того, двомовні можливості моделі підтримують її застосування в таких секторах, як освіта та охорона здоров'я, де подолання мовних бар'єрів може мати значний вплив. Зокрема, це допомагає задовольняти нагальні потреби в Україні шляхом покращення надання послуг у критично важливих сферах.

Завантаження моделей та тестувань

Ми робимо доступними звичайну та квантизовану версії MamayLM на HuggingFace, разом із детальним описом того, як їх використовувати для генерації тексту:

Ви можете локально завантажити модель використовуючи бібліотеку transformers з наступним кодом:

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "INSAIT-Institute/MamayLM-Gemma-3-12B-IT-v1.0",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)

Українські тести доступні у відповідному GitHub репозиторії.

Минула версія MamayLM v0.1 9B (Gemma 2) доступна за наступним посиланням. Якщо ви використовуєте наші моделі, будь ласка, розгляньте можливість цитування нашої роботи (цитування нижче).

Контакт

З будь-якими питаннями щодо MamayLM, будь ласка, зв'яжіться з нами за адресою contact@insait.ai.

INSAIT - це світового класу дослідницький інститут комп'ютерних наук та ШІ, який є частиною Софійського університету, розташованого в Софії, Болгарія. INSAIT був створений у 2022 році у партнерстві зі швейцарськими ETH Zurich та EPFL. Це стратегічна установа для Болгарії, фінансована з початковим фондом близько 100 мільйонів доларів США болгарським урядом, протягом 10 років, і щедро підтримується пожертвами приблизно 15 мільйонів доларів США від SiteGround, Google, AWS, VMware та інших великих технологічних компаній. INSAIT - це перший центр такого типу у Східній Європі, структурований відповідно до провідних західних інституцій комп'ютерних наук та ШІ - він надає світового класу пакети та умови для видатних викладачів на tenure-track та з постійним терміном, наукових дослідників, доцентів, докторів наук та багатьох інших посад. На даний момент, INSAIT приймає дослідників з більш ніж 23 національностей і проводить дослідження в областях, що охоплюють базові моделі, безпечний та надійний ШІ, робототехніку, комп'ютерний зір, квантові обчислення, алгоритми, інформаційну безпеку та інші ключові області.

Цитування

Для використання в академічному контексті, будь ласка, цитуйте цю роботу так:

"MamayLM v1.0: Ефективна передова мультимодальна українська LLM", 2025.

BibTeX цитування

@misc{MamayLMv1,
      title={MamayLM v1.0: An efficient state-of-the-art multimodal Ukrainian LLM},
      author={Yukhymenko, Hanna and Alexandrov, Anton and Vechev, Martin},
      year={2025},
      }

Шаблон Distill

Цей блог був заснований на основі Distill Шаблону від Leandro von Werra.