Трябва ли да маркирам AI-генерирани изображения или видео?

Да, когато ги публикуваш и има риск аудиторията да бъде подведена; това е част от отговорната употреба.

Multimodal AI: как да го използваш на практика

Q: Как да намаля разхода при работа с изображения?

Изрязвай до релевантното, не пращай ненужно големи изображения и кеширай резултати при повтаряеми входове.

Q: Кога да използвам Realtime (speech-to-speech)?

Когато имаш нужда от ниска латентност и естествен разговор; иначе транскрипция + текстов отговор често е достатъчна.

Multimodal AI: как да го използваш на практика | AiZaVseki

Как да използвам multimodal AI?

Multimodal AI означава един модел да разбира и комбинира повече от един тип вход или изход: текст, изображения, аудио (а понякога видео). За да го използваш успешно, избери подходящ модел и интерфейс (чат или API), подай правилно подготвени входове (качество, размер, контекст), формулирай конкретни инструкции за всяка модалност и добави проверки (оценка на качество, безопасност и човешки контрол).

Multimodal AI е най-полезен, когато заменя „ръчното описване“ на нещо, което вече можеш да покажеш или чуеш.

Въведение

До 2026 multimodal вече не е „екзотика“. То е практичен начин да решиш задачи като:

анализ на снимки/скрийншотове (грешки в UI, документи, диаграми);
извличане на структурирани данни от изображения;
разговор „глас-в-глас“ в реално време;
комбиниране на визуален контекст + текстова инструкция.

Ключът е да мислиш за multimodal AI като за „една и съща логика“ с различни входове: моделът пак има ограничения, може да греши и трябва да го тестваш, но ти дава нов тип контекст.

Стъпка 1: Определи задачата по модалности

Започни с прост въпрос: „Кой вход носи истинската информация?“

Ако информацията е в изображение: подай изображението, не описвай на ръка.
Ако информацията е в аудио: подай аудио или транскрипция.
Ако задачата е проверка/обяснение: текстът е основният вход.

Примери:

„Разчети фактура“ (изображение + текстово указание кои полета искаш).
„Обясни графиката“ (изображение + аудитория/цел).
„Ревю на screenshot на грешка“ (изображение + очаквано поведение).
„Резюмирай разговор“ (аудио или транскрипция + искан формат).

Стъпка 2: Избери модел и разбери разхода (преди да пишеш код)

Multimodal системите почти винаги имат разход на „вход“ и „изход“ (токени), а изображенията/аудиото имат собствени правила за таксуване и токенизация.

Проверено към 10 февруари 2026 (виж линковете в края):

OpenAI публикува API pricing и описва Realtime API, включително мултимодални сценарии и логика за image tokens.
Google публикува Gemini API pricing (Developer API) с цени на 1M токени по модели.
Anthropic публикува pricing за Claude, включително възможности за анализ на изображения.

Практично правило:

Ако пращаш много изображения, „плати“ на първо място за тях (а не за текста).
Ако пращаш много аудио, планирай latency и bandwidth.

Най-добрият модел е този, който ти дава достатъчно качество на минимална цена при твоето реално натоварване, не този с най-добрите демо клипове.

Стъпка 3: Подготви входовете (quality in, quality out)

Изображения

Изпращай ясни, четими кадри (без размазване).
Ако е документ: изрежи излишния фон, изправи перспективата и пази текста четим.
Ако е UI screenshot: включи целия контекст (URL, error банер, важни полета).
Ако искаш OCR-like извличане: избягвай снимки с отблясъци.

Аудио

За смисъл: транскрипция често е достатъчна.
За „как звучи“ (интонация, емоция): нужен е аудио вход.

Контекст

Подай допълнителен текст:

какво е задачата;
какъв е очакваният формат на отговора;
какво НЕ трябва да се предполага;
как да се постъпи при несигурност.

Стъпка 4: Пиши multimodal промптове като „инструкция + контекст + формат + проверки“

Патерн, който работи:

Инструкция

„Опиши какво виждаш и извлечи таблица с полета X, Y, Z.“

Контекст

„Това е фактура; валутата е BGN; датата е DD.MM.YYYY.“

Формат

„Върни JSON с ключове: supplier, invoice_number, date, total_bgn.“

Проверки

„Ако не си сигурен, върни null и обясни защо.“
„Не измисляй липсващи стойности.“

Стъпка 5: Използвай двуетапен дизайн (extraction -> validation)

Multimodal AI става по-надежден, когато не разчиташ на един отговор.

Документи и извличане на данни

Extraction: моделът извлича структурирани данни.
Validation: код проверява формат, суми, валидни дати, задължителни полета.
Human review при несигурност.

Примерна логика:

Ако total_bgn липсва или не е число: маркирай за преглед.
Ако сумата не съвпада с редовете: преглед.

UI и поддръжка

Моделът описва какво вижда.
Моделът предлага 2–3 хипотези.
Ти проверяваш хипотезите с логове/тестове.

Това превръща модела в „диагностичен асистент“, а не в оракул.

Стъпка 6: Добави tool use и контекст от системите ти

Multimodal + инструменти е силна комбинация:

Моделът вижда screenshot и предлага SQL/търсене на логове.
Кодът изпълнява търсенето и връща резултат.
Моделът прави обобщение и предлага следващи стъпки.

Така минимизираш халюцинации, защото моделът работи с реални факти от системата.

Стъпка 7: Безопасност, поверителност и прозрачност

Multimodal означава и нови рискове:

лични данни в снимки (лица, адреси, ЕГН);
чувствителни документи;
deepfake материали.

Минимални правила:

маскирай PII, когато е възможно;
ограничи логовете;
ако публикуваш генерирано съдържание, маркирай го;
създай процес за ескалация при инцидент.

Стъпка 8: Тествай качеството с реални примери

Създай малък „evaluation set“:

20–50 реални примера (снимки/скрийншотове/аудио), които отразяват реалния свят;
очаквани отговори или критерии (какво е „добре“);
метрики: точност на извлечени полета, процент „несигурен“ отговор, latency.

Тествай edge cases:

ниска осветеност
силна компресия
частично скрит текст
различни езици

Ако не тестваш с реални примери, multimodal AI ще изглежда магически на демо и ще е хаотичен в продукция.

Как да оцениш разхода (бърза сметка)

Направи rough estimation преди да пуснеш на потребители:

Средно колко изображения на заявка?
Среден размер/резолюция?
Средно колко текст (инструкция + контекст)?
Средно колко токени отговор?

После симулирай 100 заявки и сравни 2–3 модела. Често ще видиш, че:

„по-умен“ модел може да е по-евтин, ако дава по-точни extraction-и и намалява човешкия преглед;
или обратното: по-евтин модел е достатъчен за OCR-like задачи.

Примерни multimodal промптове (готови за копиране)

1) Screenshot диагностика

„Виж screenshot-а. Кажи:

какво точно показва грешката;
най-вероятните 3 причини;
първите 5 проверки, които трябва да направя. Отговори в bullet list. Ако нещо не се вижда, кажи какво липсва.“

2) Извличане на данни от документ

„Извлечи следните полета и върни JSON. Ако стойност не е видима, върни null. Полета: supplier, invoice_number, date, total_bgn, vat_bgn.“

3) Обяснение на графика

„Опиши тенденцията и 3 възможни интерпретации. Кажи какво допълнително трябва да знам, за да изберем правилната интерпретация.“

Съвети за по-добри резултати

Винаги казвай какво е „успех“ и какъв формат искаш.
Подай едно изображение + кратка инструкция, вместо много изображения без структура.
При документи използвай extraction -> validation -> review, вместо „дай ми отговора“.
При аудио: реши дали ти трябва звукът или само смисълът.
Следи разхода: изображенията могат да са по-скъпи от чист текст.

Чести грешки, които да избягваш

Да очакваш 100% OCR точност без валидация.
Да подаваш снимки с много шум и да искаш „перфектен JSON“.
Да не дефинираш „несигурен отговор“.
Да не мислиш за лични данни в изображения.

Често задавани въпроси

1) Multimodal AI значи ли, че моделът „вижда“ като човек?

Не. Моделът интерпретира пиксели и контекст статистически и може да греши. Затова са важни валидацията и тестовете.

2) Как да намаля разхода при работа с изображения?

Изрязвай до релевантната част, избягвай ненужно висока резолюция и кеширай резултати, когато имаш повтаряеми входове.

3) Кога да използвам Realtime (speech-to-speech)?

Когато имаш нужда от ниска латентност и естествен разговор. За много задачи транскрипция + текстов отговор е по-евтина и достатъчна.

4) Трябва ли да маркирам AI-генерирани изображения/видео?

Да, когато ги публикуваш и има риск аудиторията да бъде подведена. Маркирането и процесът на одобрение са част от отговорната употреба.

5) Кои са добри първи use case-и за multimodal?

Анализ на screenshots за поддръжка, извличане на данни от документи, описване на графики/диаграми и помощ при визуални проверки в екипи.

Източници (проверено към 10 февруари 2026)

OpenAI API pricing (вкл. Realtime API и бележки за image tokens): https://openai.com/api/pricing/
Gemini API pricing (Google AI for Developers): https://ai.google.dev/pricing
Anthropic pricing (Claude, включително анализ на изображения и token pricing за модели): https://www.anthropic.com/pricing

Пример: multimodal API заявка (концептуално)

Дори ако използваш различни доставчици, идеята е сходна: изпращаш „съобщение“ със структуриран текст плюс прикачен файл (image/audio) или линк към него.

Псевдо-структура:

{
  "input": [
    {"type":"text","text":"Извлечи invoice_number, date, total_bgn. Ако липсва, върни null."},
    {"type":"image","image_url":"https://.../invoice.jpg"}
  ],
  "output_format":"json"
}

След това приложението ти:

валидира резултата (JSON schema);
сравнява суми и формати;
при несигурност праща към човек.

Дебъг чеклист (когато качеството падне)

Изображението четимо ли е? (рязко, без отблясъци, изрязано до релевантното)
Инструкцията конкретна ли е? (полета, формат, „не измисляй“)
Има ли контекст? (валута, формат на дата, език)
Има ли валидация и повторен опит? (retry с по-строг промпт)
Има ли regression set? (сравняваш ли спрямо „златни“ примери)

Често „влошаване“ идва от промени във входа: нов шаблон на фактура, нов UI, по-лоши снимки. Тогава решението не е „друг модел“, а обновяване на тестовия набор и правилата за подготовка.

Идеи за България: първи multimodal use case-и, които дават бърза стойност

Поддръжка: анализ на screenshot-и от потребители и автоматично предложение за следващи проверки.
Счетоводство: извличане на ключови полета от фактури и касови бележки, с човешка проверка при несигурност.
Търговия: проверка на продуктови снимки (качество, липсващи детайли) и генериране на структурирани описания.
Образование: обяснение на диаграми/таблици и структуриране на домашни/задачи.
Операции: четене на снимки на табла/уреди или формуляри (където е законно и безопасно).

Когато започваш, избери use case с ясна „истина“ (правилен/грешен резултат), за да можеш да измерваш напредък.