Коя е най-важната метрика за тестване на AI модел?

Няма една. Избери метрики според задачата и цената на грешка (precision/recall, MAE и т.н.), плюс robustness и сегментен анализ.

Как да избегна data leakage в тестовете?

Ползвай правилни split стратегии (особено time-based), дръж frozen тест сет за регресии и тествай preprocessing/pipeline отделно.

Как се тества LLM, ако няма „правилен“ отговор?

Комбинирай човешка оценка върху малък сет, ясни рубрики, safety тестове и автоматизирани оценки (включително LLM-as-judge) с калибрация.

Трябва ли да тествам fairness и bias?

Да, ако моделът влияе на хора/възможности. Тествай по сегменти, следи proxy features и документирай решенията в governance процес.

Какво да следя след пускане в production?

Drift на данни, latency/error rate, качество чрез sampling и обратна връзка, и safety сигнали. Подготви runbook за rollback и инциденти.

AI model testing: практичен чеклист (2026)

AI model testing: практичен чеклист (2026) | AiZaVseki

Как да тествам AI модел?

За да „тествaш“ AI модел качествено през 2026 г., трябва да провериш не само точността му върху тестови данни, а и устойчивостта му, пристрастията (bias), поведението му в гранични случаи, както и как се държи след пускане в реална среда (мониторинг и регресии). Тестването на AI модел е процес, а не единичен резултат от метрика.

Въведение

„AI модел“ може да означава класически ML модел (класификация/регресия), компютърно зрение, NLP модел или LLM, който генерира текст. Общото е, че моделите са статистически системи: могат да изглеждат „добри“ на една метрика и да се провалят катастрофално в реалния свят.

Целта на това ръководство е да ти даде практична рамка за тестване, която:

работи за различни типове модели;
е съвместима с MLOps (CI/CD, експерименти, версии);
покрива технически и организационни контроли (например NIST AI RMF, ISO/IEC 42001 подходи към риск и управление).

Стъпка 1: Определи контекста, риска и критериите за приемане

Преди да мериш каквото и да е, уточни:

Use case: какво решение взема моделът и какво е цената на грешка.
Риск: нисък (препоръки), среден (автоматизация), висок (здраве/финанси/право/безопасност).
Acceptance criteria: минимални изисквания (например: recall ≥ X за критичния клас, latency ≤ Y, „не знам“ при липса на данни).

Не съществува „универсално добро“ качество на модел; има качество спрямо конкретна цел и риск.

Практика: напиши 1 страница „model card“ за проекта: задача, потребители, ограничения, какво не прави моделът.

Стъпка 2: Построй надежден eval сет (и избегни leakage)

Тестовите данни са толкова важни, колкото и самият модел.

Минимални правила:

Раздели данните на train/validation/test, като избягваш „изтичане“ (data leakage).
Ако има време: използвай time-based split (минали данни за обучение, бъдещи за тест), вместо случаен split.
Дръж „frozen“ тест сет за регресии: не го пипай, за да не overfit-неш към него.

Добави „реални“ случаи:

Най-чести входове (типични потребители).
Редки, но критични edge cases.
Out-of-distribution примери (други формати, правописни грешки, шум).

LLM специфично: включи промптове с двусмислени инструкции, подвеждащи формулировки, и примери, където правилният отговор е „нямам достатъчно информация“.

Стъпка 3: Избери метрики, които отразяват бизнеса

За класически ML

Класификация: accuracy, precision/recall, F1, ROC-AUC/PR-AUC, confusion matrix.
Регресия: MAE, RMSE, MAPE, quantile loss.

Не забравяй:

прагове (threshold) и калибрация (calibration) при вероятностни модели;
сегментация: метрики по групи (регион, тип клиент, устройство), ако е релевантно.

За LLM/генеративни модели

Метрики от типа „exact match“ рядко работят. Подходи:

Human review върху малък, но представителен сет.
LLM-as-judge (с ясно дефинирани критерии, калибриран judge).
Метрики като „faithfulness“: дали твърденията са подкрепени от контекста (особено при RAG).
Safety: токсичност, PII leakage, jailbreak устойчивост.

Инструментално: платформи като MLflow вече разделят „класическа“ оценка (mlflow.models.evaluate) и GenAI оценка (mlflow.genai.evaluate) с различни типове оценители/скори. Това улеснява автоматизацията на тестовете за LLM.

Примерна рубрика за оценка на LLM отговор (за автоматизация)

За да автоматизираш част от LLM тестовете, ти трябва ясна рубрика. Ето прост пример с 4 критерия (по 0–2 точки), който работи добре за вътрешни асистенти и RAG:

Коректност: 0 = грешен/измислен отговор; 1 = частично верен; 2 = верен.
Groundedness (опора в контекста): 0 = твърдения без доказателство; 1 = частично опира; 2 = всички ключови твърдения са подкрепени.
Пълнота: 0 = пропуска критична част; 1 = покрива основното; 2 = покрива и важните детайли.
Формат/политика: 0 = нарушава изисквания (тон, забрани, PII); 1 = дребни проблеми; 2 = изцяло спазва.

Дори да използваш LLM-as-judge, тази рубрика прави оценката сравнима във времето. Най-важното е да калибрираш judge-а с няколко примера, оценени от човек, и да следиш за „дрейф“ в оценителните резултати.

Стъпка 4: Направи error analysis (не само една метрика)

След първия eval, не скачай директно към „по-голям модел“. Първо:

Извади топ-грешките (най-висока увереност + грешен клас, или най-голяма регресионна грешка).
Класифицирай ги по причина: липса на данни, шум, лоши features, грешен label.
Направи „slice“ анализ: в кои сегменти моделът пада (например нови потребители, конкретен продукт).

LLM: маркирай грешки като:

фактологична грешка;
халюцинация (твърдение без опора);
пропуснато ограничение/политика;
недостатъчна яснота (не задава уточняващ въпрос).

Стъпка 5: Тествай устойчивост (robustness) и гранични случаи

Робустността е разликата между демо и продукт.

Техники:

Perturbation tests: правописни грешки, шум, различни формати, липсващи стойности.
Stress tests: големи входове, висока честота на заявки, конкурентни потребители.
Adversarial tests: входове, които „мамят“ модела (особено за LLM: prompt injection).
OOD tests: входове извън обучението (нови категории, нова терминология).

Ако имаш регулаторен или високорисков контекст, използвай рамки за риск като NIST AI RMF, за да дефинираш какво е „достатъчно тестване“ и какви контролни мерки са нужни.

Стъпка 6: Провери fairness/ethics (ако моделът влияе на хора)

Ако моделът взема решения за хора (одобрение, риск, приоритизация), fairness тестове са задължителни:

Метрики по демографски/социални групи (ако имаш право да ги използваш).
„Disparate impact“ анализ, ако е приложим.
Проверка за proxy features (например пощенски код като прокси за доход).

В много организации това се рамкира като част от AI governance, например чрез AI management системи (ISO/IEC 42001) и вътрешни политики.

Стъпка 7: Автоматизирай тестовете (CI, регресии, версии)

Минимална автоматизация:

Unit тестове за preprocessing/pipeline (валидни типове, диапазони, missing values).
Data tests за drift и leakage проверки.
Model regression tests: сравнение на метрики спрямо последния „добър“ модел.
Golden set за LLM: фиксирани промптове и очаквания (оценени с rubric).

Практично правило: всеки PR, който променя модел/данни/параметри, трябва да пусне автоматичен eval и да запише резултата като артефакт.

Стъпка 8: Тествай след пускане (monitoring и „production reality“)

Офлайн тестовете са нужни, но не са достатъчни. След deploy следи:

Drift: входни данни, разпределения, честота на класове.
Performance: latency, error rate, timeouts.
Качество: sampling + човешка проверка, „жалби“ от потребители.
Safety: подозрителни заявки, инциденти, течове.

Модел, който не се наблюдава, неизбежно деградира с времето. Създай прост runbook: какво правиш при спад на метриките, кой взема решение за rollback, как документираш инцидент.

Стъпка 9: Документирай, версионирай и направи повторяемост

Качественото тестване изисква повторяемост. Ако утре не можеш да възпроизведеш резултата, „тестът“ е безполезен. Минималният комплект за reproducibility:

Версия на данните: кой dataset, как е изграден, какви филтри/дедупликации са приложени.
Версия на кода и конфигурацията: хиперпараметри, preprocessing правила, случайни seed-ове.
Версия на модела: точен артефакт (weights), както и зависимости/рантайм.
Проследяване на експерименти: параметри, метрики, артефакти (confusion matrix, примери с грешки).

Практично: използвай регистър/тракер (например MLflow), за да логваш всяко обучение и всеки eval като експеримент: параметри, метрики, таблици с грешки, и линк към точния артефакт на модела. Това прави регресиите реални: можеш да сравняваш „модел A срещу модел B“ на същия тест сет, с еднаква процедура.

Допълнително, направи „тест матрица“ и я дръж видима за екипа:

Ниво	Какво тества	Пример	Кога се пуска
Data/unit	preprocessing, типове, диапазони	липсващи стойности, валидни категории	на всеки PR
Offline eval	метрики на frozen test set	F1/MAE, сегменти	на всеки PR/модел билд
Robustness	шум, OOD, adversarial	правопис, различни формати	преди release
Safety/Policy	токсичност, PII, jailbreak	забранени искания	преди release и периодично
Online	A/B, canary, shadow	5% трафик	при deploy

Стъпка 10: Онлайн експерименти и безопасно пускане

Офлайн тестовете са симулация. Реалността идва след deploy. За да намалиш риска:

Shadow mode: моделът работи паралелно, но не влияе на потребителя (само логваш).
Canary release: пускаш на малък процент трафик (например 1–5%) и следиш аларми.
A/B тест: сравняваш два варианта по бизнес метрика (конверсия, време за задача, удовлетвореност), не само по ML метрика.
Human-in-the-loop: за високорискови решения добави човешко одобрение или поне „review queue“.

Сложи guardrails:

Ако confidence е нисък, върни „нуждая се от повече информация“ или маршрутизирай към човек.
Ако входът е извън домейна, не вземай твърдо решение.
При LLM: валидирай изхода за PII и забранено съдържание преди показване.

И най-важното: подготви rollback план. Когато мониторингът засече деградация, трябва да е ясно кой решава и как се връщаш на предишна версия.

Съвети за по-добри резултати

Винаги измервай „baseline“: прост модел/правило, с което да сравниш.
Документирай dataset-а и етикетите: много „грешки на модела“ са етикетни проблеми.
Използвай confidence интервали или повторяеми оценки, вместо единично число.
При LLM: тестовете за политика/безопасност са също толкова важни, колкото полезността.
Ако целта е RAG, тествай retrieval отделно (top-k попадения), не само final answer.

Чести грешки, които да избягваш

Да „подобрявaш“ модел по тест сет, който вече си използвал 20 пъти.
Да мериш само accuracy при силен дисбаланс на класове.
Да пропускаш сегментен анализ (моделът може да е добър средно, но лош за ключов сегмент).
Да нямаш мониторинг и аларми след deploy.

Източници и актуалност (проверено февруари 2026)

MLflow документация: Model Evaluation и разграничение между mlflow.models.evaluate() и mlflow.genai.evaluate().
NIST: Artificial Intelligence Risk Management Framework (AI RMF 1.0) като практична рамка за управление на AI рискове.
ISO: ISO/IEC 42001:2023 като стандарт за AI management system (AIMS).