С 128K контекстен прозорец, GPT-Realtime-2 може да помни сложни инструкции, осигурявайки консистентност при дълги бизнес задачи и разговори.
Нека си поговорим малко по-задълбочено за техническите мускули на този нов модел. Най-големият и най-осезаем скок за потребителите е в така наречения контекстен прозорец (Context Window). Докато предишната версия на технологията (GPT-4o Realtime) имаше лимит от 32,000 токена, GPT-Realtime-2 прави огромен скок и предлага четирикратно увеличение до впечатляващите 128,000 токена. За да си го представиш по-лесно в реални измерения – това е еквивалентът на това вашият AI асистент да може да запомни всяка една дума, детайл и нюанс от един многочасов, изключително сложен разговор, без изобщо да "забравя" какви инструкции сте му дали в самото начало. Това е критично за B2B сектора, където разговорите често включват технически спецификации, правни клаузи и дълги списъци с изисквания.
Освен колосалната памет, интелигентността и логическото мислене са това, което наистина впечатлява инженерите. OpenAI въвеждат за първи път опция за регулиране на "усилието при разсъждение" (reasoning effort), която разполага с пет различни степени: от минимално (minimal) до екстра високо (xhigh). Ако зададеш висока степен за твоя бизнес агент, моделът умишлено отделя няколко милисекунди повече, за да обмисли сложната логика зад отговора си. Резултатите от тази архитектура са категорични: при високи настройки, GPT-Realtime-2 постига 15.2% подобрение в престижния бенчмарк Big Bench Audio (който е златен стандарт за тестване на аудио логика) спрямо своя предшественик. При тестове за следване на сложни, многостъпкови инструкции (наречени Audio MultiChallenge), подобрението е 13.8%.
Друга изключително полезна и човекоподобна функция са т.нар. "преамбюли" (preambles). Вместо агентът да стои в неловко, мъртво мълчание, докато търси информация във вашата база данни, моделът напълно естествено вмъква запълващи фрази като "Само секунда да проверя този номер на поръчка за теб". Също така, системата разполага с оптимизирана невронна мрежа за обработка на емоции и интонация – AI може да говори по-успокояващо и емпатично, когато разговаря с недоволен клиент, или по-енергично и радостно, когато потвърждава успешна резервация за почивка. Тази способност за емоционална адаптация се контролира чрез нови API параметри, които позволяват на разработчиците да дефинират "темперамента" на агента в зависимост от ситуацията.