Veštačka inteligencija koristi statističke modele za prevod, što dovodi do grešaka kod slovenskih jezika i pisama, posebno kada nema dovoljno podataka
Veštačka inteligencija i veliki jezički modeli, poput Grok, GPT, Claude i Llama, funkcionišu na osnovu statističkog predviđanja sledeće reči u rečenici, trenirani na trilionima tekstova, ali bez konceptualnog razumevanja jezika kao što su srpski, engleski ili francuski. Ovakav pristup dovodi do toga da, pri nedostatku jasnog signala, modeli često prebacuju odgovore na najbliži jezik koji prepoznaju ili mešaju više jezika, što se najčešće dešava kod slovenskih jezika kao što su srpski, hrvatski, makedonski i bugarski.
Srpski jezik koristi i ćirilicu i latinicu, kao i varijante bez dijakritika, pa modeli različito tumače takve ulaze. Greške su češće kada korisnici postavljaju kraća, dvosmislena pitanja, koriste neformalni jezik ili sleng, dok ne postoji jedinstvena stopa greške, ali je primećeno da su greške izraženije u tim slučajevima.
Kod prevođenja, veliki jezički modeli ne koriste gramatička pravila, već statistički procenjuju koji niz reči je najverovatniji. Najbolje rezultate daju kod engleskog jezika, dok kod prevođenja između manje zastupljenih jezika, poput srpskog i litvanskog, često posredno prevode kroz engleski, što može dovesti do gubitka nijansi i pojednostavljenja značenja.
U prevodu jednostavnih tekstova ili novinskih sadržaja, kvalitet prevoda je u velikoj meri zadovoljavajući. Međutim, greške su najčešće kod idioma, kulturno specifičnih izraza i stručne terminologije, posebno u oblastima kao što su pravo, medicina ili finansije, gde i najmanja greška može izmeniti kontekst.
Modeli mogu generisati gramatički i pravopisno ispravan prevod koji deluje uverljivo, ali može biti suštinski netačan, što je posebno rizično za korisnike koji ne poznaju originalni jezik. U praksi, veštačka inteligencija može poslužiti kao prvi korak u prevođenju, dok prevodilac ostaje ključan za preciznost i prilagođavanje kontekstu.
Ključni faktor za kvalitet odgovora je količina dostupnih podataka; engleski jezik, koji dominira internetom, ima najviše podataka za treniranje modela, što doprinosi stabilnijim rezultatima u odnosu na manje zastupljene jezike.