MamayLM тепер може бачити! Ми випускаємо MamayLM v1.0, найефективнішу українську мовну модель, яка перевершує всі моделі подібного розміру як українською, так і англійською мовами, при цьому відповідаючи або перевершуючи здібності у 5+ разів більших моделей.
Ми раді оголосити про випуск MamayLM v1.0, нової сучасної великої мовної моделі (LLM), орієнтованої на українську мову. Ми випускаємо модель у двох розмірах – 4B та 12B – обидві є економічно ефективними, швидкими, мультимодальними та можуть працювати на одному графічному процесорі, проте ефективні як українською, так і англійською мовами. Модель має потужні можливості, що перевершують відкриті моделі подібних розмірів обома мовами, водночас відповідаючи або переганяючи набагато більші моделі. MamayLM є результатом дослідження інституту INSAIT - перша версія моделі MamayLM v0.1 отримала широке визнання, маючи понад 10,000 завантажень та багато позитивних відгуків, що дозволило сформувати фундамент для подальшого дослідження в цьому напрямку. Нова версія має такі оновлення:
У нашій версії v0.1 ми успішно адаптували Gemma 2 до української мови, спираючись на наше дослідження з перенесення мовних знань
У попередній версії наші дані для попереднього навчання українською мовою базувалися на датасетах FineWeb2
Під час попереднього навчання ми використовували пакування за найкращим збігом (best-fit packing)
Подібно до версії v0.1, на етапі донавчання ми виділили теми, пов'язані з українською історією та культурою, що дозволило згенерувати синтетичний набір даних українських пар формату «питання-відповідь» за допомогою дистиляції знань з більшої моделі. Ми також застосували більш потужні LLM для перекладу галузевих даних українською мовою, покращуючи як кількість, так і якість цільовою мовою.
Наш набір даних для подальшого донавчання (SFT) включає різноманітні відкриті датасети, такі як Nemotron SFT та Post-Training від NVIDIA, OpenCoder (OPC) SFT, Aya Collection та інші. Ми також окремо визнаємо значний внесок української NLP спільноти, зокрема авторів Spivavtor, UAlpaca, UA-Squad, Ukrainian StackExchange, Crimean Tatar Parallel Corpora та UA-Lawyer QA, які посилюють потенціал українського донавчання.
На етапі попереднього навчання ми розділили набір даних на дві частини на основі різних великих веб-датасетів, повторно вводячи менші вузьконаправлені набори даних в обидві частини. На основі тренування з різними частинами набору тренувальних даних ми використали техніку «супу моделей» (model souping) для покращення продуктивності попередньо навченої моделі — це дозволило нам значно підвищити ефективність попереднього навчання.
На етапі донавчання ми тренували донавчені моделі на більших вузьких за тематикою даних, де кожна орієнтована окремо на англійську та українську мови, а потім об'єднали їх у фінальну, кращу версію. Такий роздільний підхід дозволяє нам ще більше підвищити продуктивність обома мовами завдяки наявності даних, орієнтованих на конкретну мову. Ми також застосували передову техніку злиття моделей, імітуючи заміну шарів (Layer Swapping)
Даний метод дозволяє нам не лише зберегти візуальні можливості та здатність працювати з довгим контекстом, але й покращити їх для обох мов без використання спеціальних наборів даних для цих областей. Ми вважаємо, що візуальна багатомовна продуктивність сильно залежить від мовних можливостей моделі в даних мовах, тому ми спостерігаємо покращення на візуальних бенчмарках без навчання на даних «текст-зображення».
MamayLM v1.0 тепер підтримує візуальні вхідні дані разом з текстовими завдяки мультимодальній підтримці моделей Gemma 3. Це значний прогрес порівняно з попередньою версією, яка була обмежена лише обробкою тексту. Незважаючи на те, що наш тренувальний корпус був зосереджений лише на текстових даних, MamayLM успадкував можливості візуального розуміння від базової моделі, які нам вдалося зберегти під час навчання. В результаті натренована модель демонструє покращені результати візуальної оцінки як для англійської, так і для української без використання будь-яких навчальних даних із зображеннями! Це можна пояснити внутрішньою архітектурою моделі, де мультимодальні можливості найбільше залежать від лінгвістичних здібностей саме текстової моделі, тоді як візуальний адаптер використовується лише для обробки картинок у форматі, зрозумілому для основної мовної моделі. Покращені мультимодальні здібності MamayLM v1.0 відкривають нові можливості для задач, які вимагають розуміння та генерації контенту на основі як текстових, так і візуальних вхідних даних, що корисно для адміністративного та різних інших випадків використання.
Ми оцінили MamayLM на наборі стандартних англійських бенчмарків, їх перекладеній версії українською мовою, а також на зібраних нами специфічних для української мови бенчмарках:
Ми взялися за завдання знайти найкращий метод перекладу для англомовних бенчмарків. Хоча певні зусилля в цьому напрямку вже були зроблені
Для вирішення цих проблем ми розробили фреймворк для перекладу, який зберігає контекст як питань, так і відповідей. Він також використовує мультисемплінг та оцінку кандидатів на переклад для оптимізації балансу між якістю машинного перекладу та участю людини, забезпечуючи максимальну ефективність. Усі адаптовані бенчмарки для української мови доступні у відповідному репозиторії на GitHub.
Як показано на графіках нижче, на всіх бенчмарках MamayLM перевершує всі моделі схожого розміру (навіть перевершуючи набагато більші 70B моделі українською!). Це досягається як англійською, так і українською мовами завдяки особливому методу, використаному для навчання MamayLM (згадано вище).
Ми також оцінили MamayLM v1.0 у порівнянні з сучасними передовими LLM. Вражаюче, наша модель перевершує моделі, що в 6 разів більші, на різноманітних бенчмарках, включаючи ті, що специфічні для українського контексту, як показано на графіку нижче.
Важливо, що, як показано на графіку нижче, MamayLM v1.0 досягає найвищого балу на іспитах ЗНО (Зовнішнє незалежне оцінювання) серед моделей схожого розміру, водночас перевершуючи набагато більші моделі, включаючи Gemma 3 27B, Llama 3.1 70B та Qwen 2.5 72B.
Результати показують, що моделі MamayLM лідирують в ЗНО тестуваннях в порівнянні з іншими відкритими альтернативами. Хоча версія v0.1 досягла видатного результату, який досить важко перевершити, наша нова версія має покращену якість в усіх інших аспектах ефективності українською і тепер включає вдосконалену візуальну підтримку.
Ми також оцінили MamayLM v1.0 на візуальних бенчмарках, де вона демонструє високу продуктивність як українською, так і англійською мовами. Здатність моделі розуміти та генерувати текст на основі візуальних даних підкреслює її універсальність та ефективність у різних модальностях.
Для оцінки продуктивності англійською мовою ми використовуємо оригінальні бенчмарки MMMU
Для моніторингу візуальної продуктивності українською мовою ми використовували ZNO-Vision
На додаток до тестів, ми оцінили MamayLM v1.0 з точки зору генеративної продуктивності на 500 складних питаннях. Результати показують, що наша модель значно перевершує продуктивність набагато більших моделей як у лінгвістичних якостях генерованого українського тексту, так і в самому змісті. Щоб уникнути упередженості та отримати найкращі можливі оцінювання, ми використовуємо Gemini 2.0 Flash, який відмінно володіє українською мовою та розуміє культурні та лінгвістичні особливості.
Ми оцінюємо продуктивність моделі на фактичних українських даних запитань-відповідей, де наша модель показує позитивну продуктивність проти набагато більших моделей, а також GPT-5-mini та Claude 3.7 Sonnet.
Ми також перевіряємо продуктивність моделі на m-ArenaHard (українською), розробленому для оцінки більш специфічних знань у математиці та кодуванні, де наша модель демонструє так само хорошу продуктивність проти набагато більших моделей.
Ми оцінюємо можливості MamayLM v1.0 4B, використовуючи ті самі тести, спрямовані на оцінку генерації тексту, розуміння та знань з конкретних сфер для української та англійської мов. Модель показує сильну продуктивність порівняно з моделями подібного розміру, демонструючи свою ефективність у різних завданнях.
У сучасному технологічному прогресі потреба у швидких, адаптивних та локально оптимізованих рішеннях стала критично важливою. Доступна у розмірах 4B та 12B, MamayLM є відносно компактною і стабільно перевершує моделі, що в 5+ разів більші українською, одночасно зберігаючи конкурентоспроможність англійською. Її здатність працювати на одному графічному процесорі дозволяє швидше адаптуватися, знижує операційні витрати та спрощує розгортання, що робить її особливо придатною для середовищ з обмеженими ресурсами та мінливими вимогами. Крім того, нова версія тепер має візуальні можливості та здатність працювати з довгим контекстом з підвищеною продуктивністю для обох мов.
Це надає значні переваги для українських місцевих бізнесів та державних установ, які можуть інтегрувати передові технології штучного інтелекту без непомірних витрат або складних технічних вимог, що зазвичай пов'язані з більшими системами. Наявність меншого розміру надає більше гнучкості у розгортанні та масштабуванні для менших компаній, які не мають розгалуженої інфраструктури. Крім того, двомовні можливості моделі підтримують її застосування в таких секторах, як освіта та охорона здоров'я, де подолання мовних бар'єрів може мати значний вплив. Зокрема, це допомагає задовольняти нагальні потреби в Україні шляхом покращення надання послуг у критично важливих сферах.
Ми робимо доступними звичайну та квантизовану версії MamayLM на HuggingFace, разом із детальним описом того, як їх використовувати для генерації тексту:
Ви можете локально завантажити модель використовуючи бібліотеку transformers з наступним кодом:
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"INSAIT-Institute/MamayLM-Gemma-3-12B-IT-v1.0",
torch_dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
device_map="auto",
)
Українські тести доступні у відповідному GitHub репозиторії.
Минула версія MamayLM v0.1 9B (Gemma 2) доступна за наступним посиланням. Якщо ви використовуєте наші моделі, будь ласка, розгляньте можливість цитування нашої роботи (цитування нижче).
З будь-якими питаннями щодо MamayLM, будь ласка, зв'яжіться з нами за адресою contact@insait.ai.
INSAIT - це світового класу дослідницький інститут комп'ютерних наук та ШІ, який є частиною Софійського університету, розташованого в Софії, Болгарія. INSAIT був створений у 2022 році у партнерстві зі швейцарськими ETH Zurich та EPFL. Це стратегічна установа для Болгарії, фінансована з початковим фондом близько 100 мільйонів доларів США болгарським урядом, протягом 10 років, і щедро підтримується пожертвами приблизно 15 мільйонів доларів США від SiteGround, Google, AWS, VMware та інших великих технологічних компаній. INSAIT - це перший центр такого типу у Східній Європі, структурований відповідно до провідних західних інституцій комп'ютерних наук та ШІ - він надає світового класу пакети та умови для видатних викладачів на tenure-track та з постійним терміном, наукових дослідників, доцентів, докторів наук та багатьох інших посад. На даний момент, INSAIT приймає дослідників з більш ніж 23 національностей і проводить дослідження в областях, що охоплюють базові моделі, безпечний та надійний ШІ, робототехніку, комп'ютерний зір, квантові обчислення, алгоритми, інформаційну безпеку та інші ключові області.
Для використання в академічному контексті, будь ласка, цитуйте цю роботу так:
"MamayLM v1.0: Ефективна передова мультимодальна українська LLM", 2025.
BibTeX цитування
@misc{MamayLMv1, title={MamayLM v1.0: An efficient state-of-the-art multimodal Ukrainian LLM}, author={Yukhymenko, Hanna and Alexandrov, Anton and Vechev, Martin}, year={2025}, }
Цей блог був заснований на основі Distill Шаблону від Leandro von Werra.