Anthropic защити своята „AI Конституция“, отказвайки Claude да бъде използван за автономни оръжия и масово наблюдение без изричен човешки контрол.
За да разберем защо Anthropic рискува милиарди долари и бъдещето си на американския пазар, трябва да погледнем дълбоко в тяхната иновативна методология, известна като „AI Конституция“ (Constitutional AI). За разлика от други модели, които се обучават чрез обратна връзка от хора (RLHF), която може да бъде субективна и лесно манипулируема, Claude е трениран с вграден набор от твърди принципи, вдъхновени от Всеобщата декларация за правата на човека и правилата за безопасност на DeepMind. Когато Пентагонът поиска премахването на тези защити, те по същество поискаха от Anthropic да „счупи“ моралния компас на своя продукт, превръщайки го от помощник в автономен екзекутор.
Дарио Амодей начерта две „червени линии“, които според него не подлежат на преговори, дори под заплаха от фалит. Първата е масовото наблюдение. Anthropic отказва техният AI да бъде използван за автоматизирано лицево разпознаване и проследяване на милиони граждани в реално време без конкретна съдебна заповед – практика, която става все по-желана от разузнавателните служби за поддържане на вътрешния ред. Втората, и по-критична линия, е автономното вземане на решения за стрелба. В момента Claude може да анализира бойното поле и да идентифицира заплахи, но е програмиран да отказва директни заповеди за генериране на координати за удар, ако системата не открие изрично потвърждение от човек в цикъла (human-in-the-loop). Аргументът на Anthropic е технически, колкото и етичен: AI моделите все още „халюцинират“. Ако един модел сгреши при писане на програмен код, това е досадно. Ако обаче сгреши при идентифициране на цел и насочи ракета към болница вместо към команден пункт, това е военно престъпление, за което софтуерната компания не иска да носи отговорност.