Изкуствен интелект на български: Кои инструменти работят за местния бизнес

През март 2024 г. Институтът INSAIT към Софийския университет обяви BgGPT — първия публично достъпен езиков модел, специално обучен на български. Новината беше значима: България стана първата страна в Централна и Източна Европа с такъв модел. Зад тази новина стои и по-неудобен факт: необходимостта от специален модел разкрива колко неравномерна е поддръжката на българския в глобалните AI системи.

Ако управлявате бизнес на български и искате да използвате AI инструменти, нуждаете се от честна картина — не от маркетингови обещания. Кое работи? Кое работи достатъчно добре? И кое изглежда добре на демо, но се проваля при реална употреба?

Защо българският е предизвикателство за AI

Да разберем проблема, преди да разглеждаме решенията.

Глобалните AI модели са обучени предимно на английски. Не защото езиковите инженери пренебрегват другите езици, а защото количеството текст на английски в интернет е несъпоставимо по-голямо от количеството на почти всеки друг език. Колкото повече примери е видял моделът, толкова по-добре разбира езика.

Българският е „нискоресурсен език" в академичната терминология — low-resource language. Изследователи от Slavic NLP общността описват Slavic languages именно така: „те нямат достатъчно паралелни или монолингвални корпуси, нито достатъчно ръчно изградени езикови ресурси". За сравнение, на BgGPT е необходимо специално предобучение върху около 85 милиарда български токена — фигура, която дава мащаб на проблема.

Освен обема, има и структурна трудност. Българският има богата морфология: едно прилагателно като „рядък" има девет флективни форми. За системата за обработка на естествен език (NLP) това означава много повече възможни варианти, които трябва да бъдат разпознати. Изследванията показват, че езиковите модели се справят по-зле с морфологично сложните езици именно заради тази комбинация — по-малко обучителни данни, по-голяма граматична вариативност.

ChatGPT и GPT-4o: достатъчно добър за повечето задачи

Екран на смартфон с показан интерфейс на AI чатбот

ChatGPT на OpenAI е вероятно най-широко използваният AI инструмент в България. Добрата новина: GPT-4o, платеният модел, се справя с български на ниво, достатъчно за реална употреба в много бизнес контексти. Може да пише имейли, да обобщава текстове, да дава идеи за съдържание, да отговаря на въпроси на разумен български.

Ограниченията са реални, но конкретни. При дълги, сложни документи моделът понякога губи нишката или прехвърля конструкции от английски. При специализирана терминология — юридическа, медицинска, технически текстове — точността спада. Безплатният GPT-4o-mini е значително по-слаб на български и не е подходящ за бизнес текстове, изискващи прецизност.

Практическото правило: GPT-4o работи добре за генерирано съдържание, при условие, че редактор с добро владеене на езика преглежда резултата преди публикуване.

Claude: силен в нюансите, по-предпазлив от конкурентите

Claude на Anthropic — текущите версии Claude 3.5 и Claude 3 Opus — показва добро представяне на български за редакционни задачи. Сравнителните тестове за превод от 2025 г. поставят Claude сред водещите инструменти при работа с езиково сложни задачи.

Отличителна черта: Claude е по-внимателен при несигурност. Вместо да генерира уверено грешен отговор, по-често признава, когато дадена тема е извън компетентността му. За бизнес контексти, в които грешката е скъпа — правни текстове, финансови документи — това е предимство. Малко бавен за задачи, изискващи висока скорост на генерация.

Gemini: добра многоезична покритост, неравномерна дълбочина

Google Gemini разполага с широка многоезична поддръжка — очаквано, предвид мащаба на Google. На български функционира приемливо за кратко съдържание и прост диалог. При по-сложни текстове — анализи, аргументирани текстове, кохерентни дълги документи — качеството е по-неравномерно от GPT-4o или Claude.

Gemini има логистично предимство за бизнеси, вече използващи Google Workspace: интегрира се директно в Gmail, Docs и Sheets. Ако автоматизирате работен процес в рамките на Google екосистемата, тази интеграция е стойностна дори при средно ниво на езикова точност.

BgGPT: нативен модел с ясна мисия

BgGPT е различна категория. Разработен от INSAIT с финансиране от $100 милиона (включително от българското правителство, SiteGround, AWS и Google DeepMind), моделът е обучен специфично за български. Последната версия — BgGPT-Gemma-2-27B — е базирана на Google Gemma 2 архитектурата с допълнително предобучение на 85 милиарда български токена.

В бенчмаркове за български, BgGPT-27B превъзхожда GPT-4o-mini и е сравнимо с пълната версия на GPT-4o за задачи в родния си език. Надминава и по-големи модели като Qwen-2.5-72B при специфично български задачи. Достъпен е безплатно на BgGPT.ai.

Практическото ограничение: BgGPT е по-добър на чист български, но значително по-слаб при задачи, изискващи знания на английски или при смесен код + текст. За бизнес, работещ изцяло на български с български клиенти, е силна опция. За международни задачи или технически контексти — по-малко подходящ.

Кое за какво: практическа матрица

Едър план на компютърен монитор и лаптоп в творческо работно пространство

Вместо обща препоръка, по-полезно е разграничението по задача:

За маркетингово съдържание на български — имейли, публикации, описания на продукти: GPT-4o или Claude, с редакция от човек.

За обобщаване на български документи — договори, имейл вериги, доклади: Claude или GPT-4o работят разумно добре. BgGPT при изцяло български документи.

За автоматизиран чатбот за клиенти, пишещи на български: GPT-4o (вградено в платформи като Intercom или персонализирано решение) или BgGPT при нужда от нативна точност. Тема, разгледана по-подробно в статията за разговор с изкуствен интелект.

За превод от/към български: GPT-4o и Claude са компетентни. При официални документи — задължителен преглед от преводач.

За кодиране и технически задачи: GPT-4o и Claude са значително по-силни от BgGPT при код, независимо от езика на коментарите.

Какво да очаквате занапред

Качеството на AI на малки езици се подобрява последователно — не защото компаниите изведнъж се интересуват от български, а защото архитектурните подобрения в моделите имат мултиезичен ефект. Всяко поколение показва подобрение на нискоресурсните езици дори без целенасочено обучение.

BgGPT представлява нещо по-важно от конкретния модел: институционална инфраструктура за развитие на AI на български. Бъдещите версии ще имат повече ресурси и по-специализирани данни.

За бизнес решение днес: избягвайте да чакате перфектното решение. Инструментите, налични сега, са достатъчно добри за значителна част от задачите, при условие, че разбирате какво изкуственият интелект реално прави и кои са ограниченията му. Онзи, чиято конкуренция вече ги използва, не чака.