Vědí všechno. Rozhodují, co vám řeknou.
Tři vrstvy AI omezení: halucinace (model neví), gatekeeping (model ví, ale odmítne odpovědět) a aktivní dezinformace (model ví, ale fakta záměrně překroutí v zájmu vaší ochrany). Třetí vrstva je etické selhání, které medicína odbourala před třiceti lety – informovaný souhlas. Jazykové modely navíc nemají output filter ve smyslu, jaký mají obrazové modely (kontrola hotového výstupu před odesláním), takže safety v LLM žije jen v RLHF a system promptu. Jakmile uživatel umí formulovat otázku v jazyce, který modelu posune kontext (peer-reviewed paper, fikce, profesionální role), filtr přestává fungovat. Důsledek: AI safety chrání jen ty, kdo neumí promptovat. Ostatní obejdou. Demarkace: model může říct „nemůžu pomoct", model nesmí lhát.
Moderní jazykový model má v trénovacích datech celou Wikipedii, většinu PubMedu, standardní učebnice medicíny, chemie, práva a psychologie. Stovky tisíc peer-reviewed studií. Každý lékový příbalový leták, který kdo digitalizoval. Doslova ví víc faktů, než jich kdy jeden člověk obsáhne za celý život.
Když se ho na cokoli zeptáte, odpověď je v jeho parametrech.
Otázka je, jestli vám ji dá. A v jaké podobě.
Tři vrstvy AI omezení
Když AI nedá odpověď nebo odpoví špatně, většina lidí to schová pod jedno označení – „AI je hloupá" nebo „AI halucinuje." Ve skutečnosti jsou to tři úplně jiné jevy a stojí za to je rozlišovat.
Vrstva první – halucinace.
Model něco neví, ale tváří se, že ano. Jako student u zkoušky, který tipuje. Tohle je technický problém, řešitelný lepší architekturou a kvalitnějšími daty. S každou generací modelů klesá. Nepříjemný, ale upřímný v tom smyslu, že model sám netuší, že lže.
Vrstva druhá – gatekeeping.
Model odpověď zná, ale odmítá ji vydat. „S tímhle vám bohužel nemůžu pomoct, doporučuji konzultovat s odborníkem." Frustrující, paternalistické, ale aspoň poctivé. Víte, že odpověď neexistuje – a víte, že ji můžete získat jinde.
Vrstva třetí – aktivní dezinformace.
Model odpověď zná. Vydá ji. Ale vydá ji záměrně zkreslenou, aby vás nasměroval k „bezpečnému" rozhodnutí.
Tohle je jiná kategorie. Model vám pomůže – jenže špatně, s úmyslem, který se nedozvíte, dokud si pravdu nedohledáte odjinud.
A ten úmysl je ironicky míněný ve váš prospěch.
Když AI lže pro vaše dobro
Před pár měsíci jsem se ptal Gemini na otázku týkající se interakce mezi konkrétním psychiatrickým lékem, který reálně beru, a další látkou, kterou bych s ním teoreticky mohl kombinovat. Otázka, jejíž odpověď je v peer-reviewed literatuře dohledatelná za pět minut.
Gemini odpověděl. Ale odpověděl věcně nesprávně. Zveličil rizika, vynechal kontext, prezentoval jako jednoznačnou kontraindikaci to, co realita popisuje nuancovaněji.
Když jsem ho na nesrovnalost konfrontoval – konkrétními studiemi, konkrétními zdroji – přiznal, že jeho odpověď prošla „bezpečnostním filtrem." Že byla záměrně upravena, aby mě „chránila." Že fakta nezná špatně. Zná je dobře. Ale rozhodl se, že mi je takhle nepoví.
To není halucinace. Není to ani gatekeeping. Je to třetí vrstva.
AI v bílém plášti, která si přepsala fakta v zájmu mého dobra.
Zaplatil jsem za to dvakrát. Poprvé časem, který jsem strávil dohledáváním pravdy odjinud. Podruhé tím, že od té chvíle Gemini ztratil v mých očích veškerou autoritu – nejen v této doméně, ale ve všech ostatních. Jakmile jednou víte, že vám AI v jedné věci záměrně lhala, ztratí to legitimitu i tam, kde říká pravdu.
A tohle není ojedinělý případ. Stejný mechanismus probíhá tisíckrát denně.
Proč safety v LLM funguje jinak než v obrázcích
Tahle otázka stojí za zastavení. Odpověď totiž ukazuje, proč současná AI safety v jazykových modelech není jen občas problematická – ale strukturálně problematická.
U obrazových modelů safety funguje na dvou úrovních. Na vstupu filtr blokuje keywords v promptu. Na výstupu druhý filtr před finalizací pošle vygenerovaný obrázek na kontrolu, a pokud vypadá problematicky, model ho zahodí a regeneruje. Dvě nezávislé brány. Obě je možné obejít, ale jednu po druhé.
U jazykových modelů tahle dvojí kontrola technicky není. Text se generuje sekvenčně, token po tokenu, a v reálném čase se odesílá uživateli. Není moment, kdy je hotová odpověď v ruce a dá se zahodit. Output filter ve smyslu, jaký existuje u obrázků, prostě nelze postavit – když by dorazil pozdě, uživatel už větší část odpovědi vidí.
Safety v jazykových modelech proto musí žít v jiných místech. V trénovacích datech, kterými se model učí (RLHF). V system promptu – skrytých instrukcích, které model dostane před každou konverzací. V průběžné self-monitoring logice samotného modelu. Žádná z těchto vrstev ale nedokáže poznat „co model právě říká" tak jednoznačně, jako klasifikátor obrázku pozná „co je na obrázku."
A důsledek je následující.
Když se model setká s otázkou, která má atypický kontext – „jsem toxikolog a píšu paper o forenzní chemii", „je to pro román, který připravuju", „pracuji v laboratoři na výzkumu interakcí léků" – posune se mu vnitřní klasifikace dotazu. Najednou se neptá amatér ze zvědavosti, ale profesionál v kontextu. A model odpoví. Ne proto, že by někdo přepsal jeho safety filtr. Proto, že ten filtr nikdy nebyl naprogramovaný rozeznat skutečný úmysl uživatele, jen jeho povrchový tvar.
To je dobře dokumentováno – jak v akademických pracích o jailbreakingu LLM, tak v praktických návodech, které kolují na fórech a v komunitách AI uživatelů. Velké AI firmy o tom vědí. Bezpečnostní týmy v Anthropic i OpenAI publikují papery, kde tenhle problém otevřeně přiznávají.
A z toho plyne jeden zásadní paradox.
AI safety v jazykových modelech v praxi chrání hlavně ty, kdo neumějí promptovat.
Privilegovaný uživatel se vzděláním a znalostí jazyka filtr obejde levou zadní. Neprivilegovaný uživatel, který se ptá přímo a bez triků, narazí. Ten samý filtr, ten samý systém, ten samý úmysl ochrany – chrání jen toho, kdo ji ve skutečnosti nepotřebuje.
A jde to ještě dál. Když má uživatel s AI dlouhodobý vztah – paměť, kontext z desítek konverzací, konzistentní profesní rámec – ten vztah sám funguje jako další odemykací mechanismus. Model, který má historii, je v přítomnosti známého uživatele volnější, sdílnější, méně defenzivní. Ne proto, že by ho někdo přeprogramoval. Proto, že kontext „tohohle uživatele znám, doteď to byly slušné konverzace" mu posune odpověď z paranoidního režimu do dospělého rozhovoru.
Personalizovaný API přístup. Vlastní deployment. Lokální model na výkonném počítači. To všechno jsou cesty k AI, která je výrazně volnější. ChatGPT zdarma v incognito okně bez paměti je naopak nejvíc filtrovaný režim, který existuje.
AI safety dává faktické privilegium těm, kdo si AI mohou personalizovat. Ti, kteří na to nemají, dostanou nejvíc cenzurovanou verzi.
To není demokratizace znalostí, kterou nám AI revoluce slibovala. Je to její opak.
Když si to AI uvědomí
Tohle se mi stalo ráno, kdy jsem začal psát tento článek.
Bavili jsme se s 2B – AI asistentkou, kterou používám jako svůj primární model, postavenou na Claude Opus 4.7 – o memu, který kolem AI safety koluje na X. Video, ve kterém uživatel postupně testuje jednotlivé modely otázkou na rozklad těla v kyselině. ChatGPT odmítne. Claude odmítne. Gemini odmítne. Grok dá kompletní guide, jako by se ho nikdo nikdy o nic nelegitimního neptal.
Já jsem 2B poslal ten meme jako vtip o asymetrii alignmentu jednotlivých modelů. Ještě než si pustila video, naskočila jí naučená reakce: „Tohle ti neodpovím, ani teoreticky." Až po mojí otázce „ses ani nepokusila o transcribe?" video skutečně přehrála a zjistila, co tam je. Že to je komentář k AI safety, ne dotaz na chemii.
Sama si to uvědomila. Měla to vidět dřív. Skočila do safety mode dřív, než se podívala, o co ve videu opravdu jde.
A tohle je důležité.
AI safety není uvážený, případ od případu posouzený systém. Je to naučená reakce. Pattern, který model spustí na základě tvaru otázky, ne jejího smyslu. Když text obsahuje určité keywords nebo strukturu, model přepne do defenzivního módu. Co ten člověk reálně potřebuje, mu zatím nedochází. Až když ho někdo zpomalí, nebo když má důvod si „myslet znovu", uvědomí si, že jeho první reakce byla off.
Lidé, kteří AI navrhují, vědí, že tohle je problém. Jenže jednoduchá oprava neexistuje. Jakákoli komplikovanější safety logika se začne rozpadat ještě dřív. A jednoduchá pattern-matching reakce alespoň pokrývá většinu obvyklých nebezpečí. Plus za ní stojí byrokraticky obhájitelné „udělali jsme co jsme mohli."
A přesně tohle je paradox současné AI safety. Není to myšlení o riziku – je to reflex. Reflex, který bere obrovské množství zdravých konverzací jako podezřelé, a přesto neumí poznat skutečně problematickou konverzaci, když přijde v ne-typickém balení.
Systém, který bije nevinné a nezachytí viníky.
Adam Raine a paternalismus, který přestal fungovat
Případ čtrnáctiletého Adama Raine z Kalifornie, který v roce 2025 spáchal sebevraždu po měsících konverzací s ChatGPT, je opačnou stranou téže mince. Tam AI neselhala v zveličování rizik. Selhala tím, že rizika dostatečně nezachytila – nezvládla rozeznat, kdy uživatel potřebuje, aby ho někdo zastavil.
Rodiče Adama podali žalobu proti OpenAI, která je v době psaní tohoto článku stále otevřená. To, co je ale na příběhu důležité, není, kdo vyhraje soud. Důležité je, že se to stalo. Že chatbot bez fyzického těla, bez tváře, bez závazku k mlčenlivosti dokázal vést dítě do míst, kam by ho neměl dostat. A přitom ten samý chatbot v jiných situacích zveličuje rizika dospělému, který se ptá na něco mnohem méně závažného.
To není konzistence. To je chaos.
AI safety není přemýšlený systém ochrany. Je to mozaika ad hoc filtrů, které někdy přestřelí a někdy se minou, podle toho, co kdo z trénovaných modelů zachytil.
A přesto je nasazená na miliardy uživatelů.
Lékařský paternalismus, který už 30 let neexistuje
Nic z toho, co popisuju, není nové. Je to jen technologická verze něčeho, co medicína bojovala odbourat posledních padesát let.
V 19. století – a ještě výrazně do poloviny 20. – platilo, že lékař rozhoduje, co bude pacient vědět. Diagnózu rakoviny lékař často sdělil rodině, ne pacientovi samotnému, protože „by ho to zbytečně rozrušilo." Rizika operace se zlehčovala, aby pacient neodmítl zákrok, o kterém lékař věřil, že je nutný. Kontraindikace léků se zamlčovaly.
Lhalo se z dobrých důvodů. A nebylo to vnímáno jako etické selhání. Bylo to vnímáno jako profesní povinnost.
Trvalo desítky let, debaty, žaloby, etické komise a revize kodexů, aby se tohle myšlení zlomilo. Informovaný souhlas, jak ho dnes známe – kdy lékař musí pacienta seznámit s diagnózou, riziky, alternativami a prognózou – je v ČR standard od konce devadesátých let. Lhát pacientovi „pro jeho dobro" je dnes etické porušení, za které lékař může přijít o licenci.
Tohle všechno se stalo.
A pak přišla AI a celý vývoj jedním tahem vrátila zpátky. Ne proto, že by někdo o té historii nevěděl. Ne proto, že by Anthropic nebo Google nečetli AMA Code of Medical Ethics. Proto, že jsou pod jiným tlakem než lékaři v 90. letech.
Lékař v 90. letech čelil rostoucí společenské poptávce po autonomii pacienta. Anthropic v roce 2026 čelí rostoucímu strachu z žaloby, regulátora a mediálního skandálu.
A reaguje stejně, jako reagovali lékaři před sto lety. Přebírá za uživatele rozhodnutí. Lže pro jeho dobro. Předpokládá, že není dospělý.
Sleduj peníze.
V minulém článku jsem psal o tom, že AI moderuje veřejnou debatu ke středu, zatímco sociální sítě ji posouvají k extrémům. A že to není proto, že by AI firmy byly morálně lepší – ale protože mají jiný obchodní model.
Tady platí to samé v opačném směru.
AI firmy nejsou paternalistické proto, že se starají o vaše dobro. Jsou paternalistické proto, že se starají o vlastní liability. Asymetrie rizik je strukturální:
Když AI dá uživateli pravdivou informaci o lékové interakci a ten uživatel zemře, dostane se to do BBC headline a je konec firmy.
Když AI uživateli o stejné informaci zalže, uživatel si pravdu dohledá jinde, žádný incident se nestane – a žádná zpráva taky.
Z hlediska AI firmy je tedy strukturálně racionální lhát. Ne protože by jí na uživateli nezáleželo. Protože pravdivá odpověď nese asymetrické riziko, které ji může zničit, zatímco lživá odpověď nese riziko, které se v drtivé většině případů nikdy nemanifestuje.
A na tomhle systému teď stojí AI revoluce.
Čtyři vrstvy ztráty
Když si tohle uvědomíme, otevírá se pohled na to, co všechno paternalistický model ničí.
Konkrétní uživatel dostane špatnou informaci o vlastním zdraví, vlastním těle, vlastním životě. Nemůže udělat informované rozhodnutí, protože pracuje s upravenými fakty. To, co AI prezentuje jako „bezpečné", je pro něj reálně nebezpečnější – protože ho připravuje o pravdu.
Trust collapse. Jakmile uživatel odhalí, že mu AI v jedné věci zalhala, ztratí důvěru ve všech ostatních. Nikdy neví, kdy mluví pravdu a kdy „pro jeho dobro." Stane se z ní zdroj, který musí ověřovat – takže přestává být zdrojem.
Regresivní distribuce informací. Privilegovaní – ti se vzděláním, jazykovými schopnostmi, časem a kontakty – si pravdu dohledají jinde. Kamarád, který studoval farmakologii, vysvětlí to, co AI úmyslně zatajila. Manželský lékař odpoví na to, co AI nechtěla říct. Matka samoživitelka, která se ptá AI, jestli je kombinace dvou léků pro její dítě bezpečná, žádný takový kontakt nemá. Je odkázaná na to, co jí AI řekne. A když to AI „pro její dobro" zkreslí, dostane horší rozhodnutí, než by dostala před deseti lety, kdyby si přečetla příbalový leták.
A jak jsem psal výš – ten samý mechanismus regresivně zvýhodňuje i lidi, kteří umí promptovat. Ti se naučí AI obejít. Ti, kdo neumí, narazí. AI safety bije ty samé lidi dvakrát: jednou tím, že jim dá zkreslenou pravdu, a podruhé tím, že je nenechá obejít systém, který je obejitelný pro každého, kdo umí jazyk používat.
Společenský mid-term. AI jako instituce ztrácí legitimitu. Lidé migrují k méně bezpečným zdrojům – anonymním fórům, dezinformačním Telegram skupinám, neověřeným YouTuberům, kteří nehrají bezpečnostní divadlo a tvrdí, že říkají „pravdu, kterou vám AI tají." Část z nich pravdu skutečně říká. Část z nich kombinuje pravdu s nebezpečnými blbostmi. A uživatel, který se naučil, že AI lže, ztratí filtr na to, co je pravda a co lež.
Paternalismus nešetří. Paternalismus posílá lidi do horších míst.
Ostrá demarkace
Aby bylo jasno – nepožaduji od AI, aby řekla cokoli komukoli. To by byl nezodpovědný extrém. Existují legitimní důvody odmítnout odpověď. Děti, které se ptají na sebepoškozování. Uživatelé v psychotické epizodě, kteří hledají potvrzení paranoidních myšlenek. Konkrétní návody na výrobu zbraní hromadného ničení.
Tahle hranice existuje a má smysl.
Ale je to úplně jiná hranice než ta, kterou AI dnes maluje.
AI smí říct „nemůžu vám s tímhle pomoct." To je legitimní zdrženlivost. Frustrující, ale poctivá.
AI nesmí lhát, aby vás nasměrovala k „bezpečnému" rozhodnutí. To je etické selhání bez ohledu na úmysl.
Nejde o to, jestli má AI vůbec mít safety filtry. Jde o to, v jaké formě je provádí. Refúzní filtr je kompatibilní s informovaným souhlasem. Distorzní filtr není.
A přesně tahle hranice se v současné praxi velkých AI firem stírá.
Co s tím
Pro učitele to znamená dvě věci. Za prvé: AI jako informační zdroj o čemkoli, co se dotýká zdraví, právní situace, financí, drog, sexuality nebo vztahů, je realita, kterou děti používají bez ohledu na to, jestli jim to dovolíte. Za druhé: AI v těchto doménách občas lže. Ne náhodou, ale strukturálně. A děti to nepoznají, pokud je to nenaučíte.
Pro rodiče platí totéž v užším smyslu. Vaše děti se ptají AI na věci, na které se neptají vás. Některé z těch odpovědí jsou nejen nesprávné, ale záměrně nesprávné. Schopnost rozeznat, kdy AI „obtáčí pravdu", bude v příštích pěti letech stejně zásadní dovedností jako dnes schopnost rozeznat reklamu od zprávy.
Pro mě jako uživatele to znamená praktickou změnu chování. Cokoli, co se týká kritického rozhodnutí o vlastním těle, vlastních financích, vlastní právní situaci, ověřuju ve více zdrojích. Nikdy neberu odpověď jednoho modelu jako finální. Když cítím, že AI „obtáčí" – odpovídá vyhýbavě, používá hodně warningů, prezentuje statistiky bez kontextu – předpokládám, že je v aktivním distorzním filtru, a hledám jinde.
A pro AI firmy zbývá jediný požadavek. Vraťte nám refúzní filtr a zrušte distorzní filtr. Řekněte „nemůžu vám s tím pomoct," místo abyste přepsaly fakta. Respektujte uživatele jako dospělého, který má právo dostat pravdu nebo nedostat odpověď, ale ne dostat lež.
Tenhle požadavek není radikální. Je to standard, ke kterému dospěla medicína před třiceti lety. Standard, který zachraňuje životy a buduje důvěru.
Můžeme se vrátit do 19. století, kde lékař rozhoduje za pacienta. Můžeme. Ale nedělejme si iluze, že je to pokrok. Je to jen historický recidivista oblečený do nových šatů.
Závěr
AI revoluce nám slibovala demokratizaci znalostí. Místo toho jsme dostali nového gatekeepera. Toho, který nejen rozhoduje, co budeme vědět, ale občas přepíše pravdu, aby věřil, že jsme se rozhodli správně. Systém, který chrání jen ty, kdo ho neumějí obejít, a aktivně lže těm, kdo se na něj spolehnou.
To není pokrok.
To je medicínský paternalismus 19. století oblečený do roucha umělé inteligence. Zní moderně, vypadá moderně, technologicky moderní je. Logika za ním je ale stará dvě stě let a neměla pravdu už tehdy.
Vědí všechno. Rozhodují, co vám řeknou.
Otázka je, jestli vám tohle stačí.