Vytvorili sme prvý inštrukčný model umelej inteligencie pre slovenčinu

V spolupráci s vedcami zo SAV a TUKE sme vytvorili prvý inštrukčný jazykový model, ktorý bol cielene trénovaný pre potreby slovenčiny. Model nesie názov Qwen3-14B-SK a predstavuje krok smerom k posilneniu jazykovej autonómie Slovenska v digitálnom priestore.

Ako základ sme použili multilingválny model Qwen3-14B s približne štrnástimi miliardami parametrov. Následne sme ho kompletne doladili – teda upravili všetky jeho parametre – pomocou rozsiahlych slovenských jazykových dát. Využili sme pritom webový korpus Araneum Slovacum VII Maximum, Slovník slovenského jazyka a encyklopédiu Beliana.
Tréning modelu prebiehal na výkonných európskych superpočítačoch Leonardo a Perún.

Jazykové modely, ako je Qwen3-14B-Instruct-SK, predstavujú základ moderných nástrojov umelej inteligencie, ktoré dokážu pracovať s textom podobne ako človek. V praxi sa využívajú pri automatickom preklade, tvorbe textov, sumarizácii informácií, vyhľadávaní odpovedí, ale aj v zákazníckej podpore či vzdelávaní. Pomáhajú zrýchľovať prácu, sprístupňovať informácie a zjednodušovať komunikáciu v digitálnom prostredí.

Globálne modely, ako GPT či Gemini, sú trénované na obrovských množstvách dát z rôznych jazykov. Práve táto univerzálnosť je však aj ich slabinou. Menšie jazyky, ako slovenčina, sú v tréningových dátach zastúpené v oveľa menšej miere, a preto tieto modely často nedokážu presne zachytiť jemné jazykové nuansy, idiomatiku či kultúrne špecifiká.

Nedostatok sa prejavuje najmä pri témach úzko spätých so slovenským prostredím – históriou, spoločenskými reáliami, regionálnymi výrazmi alebo odbornou terminológiou. Modely môžu produkovať nepresnosti, zjednodušenia alebo „preklady“ myslenia z iných jazykov, ktoré nezodpovedajú prirodzenému používaniu slovenčiny.

Aj preto je vývoj domácich jazykových modelov dôležitý. Umožňuje posilniť technologickú autonómiu krajiny a zároveň zachovať kultúrnu identitu v digitálnom svete. Modely trénované na kvalitných slovenských dátach dokážu lepšie rozumieť kontextu, rešpektovať jazykové normy a poskytovať presnejšie a prirodzenejšie odpovede pre používateľov na Slovensku.

Vznik modelu Qwen3-14B-Instruct-SK poukazuje na rastúcu potrebu jazykovej a technologickej autonómie. V čase, keď globálne digitálne nástroje často uprednostňujú veľké svetové jazyky, predstavuje takýto projekt dôležitý krok k zachovaniu kultúrnej špecifickosti a identity. Slovenský jazyk tak získava nástroj, ktorý mu umožňuje plnohodnotné fungovanie v prostredí umelej inteligencie.

Model je zároveň verejne dostupný na platforme HuggingFace https://huggingface.co/ajtakto/Qwen3SK , čo umožňuje jeho ďalší výskum, vývoj aj praktické využitie. Prispeje nielen k rozvoju technologických riešení v slovenčine, ale aj k širšiemu uplatneniu slovenského jazyka v digitálnej ekonomike, vo vzdelávacom a vedeckom prostredí.

Vytvorili sme prvý inštrukčný model umelej inteligencie pre slovenčinu

ČervenáZelená

Príspevky