SYSTÉM//2025-12-01//5 min

Poslední zkouška lidstva (a proč DeepSeek mění hru)

TL;DR// Shrnutí pro AI

DeepSeek: čínský AI model, trénink za 5.5M USD (vs GPT-4 stovky milionů - miliarda). Výsledek srovnatelný nebo lepší, open-source. Humanity's Last Exam: benchmark pro AI (staré testy byly moc snadné, 90%+ úspěšnost). DeepSeek na něm dosahuje výsledků srovnatelných s nejlepšími americkými. Jako Ferrari za cenu Fabie provozované za MHD jízdenku.

Poslední zkouška lidstva (Humanity's Last Exam). V realitě to není tak dramatické, jak to zní – ve zkratce jde o velmi (důraz na velmi) náročný test, na kterém se srovnávají AI modely.

Zrovna dnes je to relevantní ze dvou důvodů: Před třemi lety spustilo OpenAI ChatGPT a dnes čínská firma DeepSeek zveřejnila model, který v té „poslední zkoušce" dosahuje výsledků srovnatelných s nejlepšími americkými modely – a je kompletně zdarma.

DeepSeek

DeepSeek je čínský AI model, který může používat kdokoliv zdarma. Dokud se ho neptáte „co se stalo na náměstí Nebeského klidu" nebo podobné politicky citlivé otázky, může být velmi užitečný pomocník.

Nikdy tam ale nesdílejte osobní data (a zvážil bych i to, zda chcete mít tu aplikaci v mobilu). Je to čínský model a nikdo jistě neví, kde se data zpracovávají.

Zajímavé ale není, že existuje další AI. Zajímavé je, kolik to stálo a jak je to dobré.

Trénink DeepSeeku (aspoň dle veřejných informací) stál asi 5,5 milionu dolarů. OpenAI za GPT-4 pravděpodobně utratilo stovky milionů, možná přes miliardu. Výsledek? DeepSeek je srovnatelný nebo lepší, levnější a open-source (teoreticky si ho můžete rozjet sami doma).

Je to jako kdyby někdo postavil Ferrari za cenu Fabie a ještě ho provozoval za cenu MHD jízdenky.

Humanity's Last Exam

V lednu 2025 vytvořila skupina vědců z Center for AI Safety benchmark test nazvaný Humanity's Last Exam. Důvod byl jednoduchý: existující testy byly příliš jednoduché – AI na nich dosahovala 90%+ úspěšnosti. Už nešlo měřit, jak jsou modely skutečně dobré.

Takže vytvořili nejtěžší možný test:

2 500 otázek z desítek oborů (matematika, fyzika, biologie, chemie, informatika, humanities)
Expert-level obtížnost – vytvářeli je PhD studenti a vědci z celého světa
Každá otázka musela nejdřív selhat na nejlepších AI modelech – pokud model odpověděl správně, otázka se do testu nedostala

Výsledek je test, kde 76 % otázek má exact-match odpověď (buď to víš přesně, nebo ne), 14 % vyžaduje porozumění textu + obrázku, a odpovědi nejdou najít na internetu.

A jak si vedou jednotlivé AI? Nejlepší je aktuálně Google Gemini s 37,7 %, GPT 5 Pro s 31,64 % a třetí je DeepSeek s 30,6 %. Pro kontext jak velký skok to je: přesně před rokem měl ChatGPT výsledek 2,72 %.

Šílený paradox

A tady přichází šílený paradox, který celou situaci komplikuje.

Zatímco AI modely failují na HLE, jiné AI systémy mezitím objevují nové fyzikální zákony. Tým z Emory University publikoval studii, kde AI analyzovala „dusty plasma" – nabitý plyn s prachovými částicemi (najdete ho všude od prstenců Saturnu po lesní požáry). AI popsala síly mezi částicemi s 99% přesností a objevila asymetrickou interakci, která byla teoreticky předpovězena, ale nikdy předtím modelována.

A hlavně: AI opravila dva dlouhodobě platné předpoklady, o kterých fyzici byli přesvědčení desítky let. Ukázalo se, že náboj částice neroste proporcionálně s poloměrem (závisí na teplotě a hustotě okolního plazmatu) a že síla mezi částicemi neklesá exponenciálně jen s vzdáleností (závisí také na velikosti částic).

Jak je možné failovat na testech a objevovat fyziku?

Protože to jsou dva úplně jiné druhy schopností.

Objevování fyzikálních zákonů = hledání vzorců v obrovských datech. AI modely dokážou detekovat rakovinu štítné žlázy, prsu nebo plic s vyšší přesností než lidští radiologové. Zkracuje vývoj nových léků z 10+ let na měsíce, AlphaFold předpověděl strukturu 200 milionů proteinů. Protože AI zpracovává najednou tolik dat, že to žádný člověk nezvládne.

Řešení složité matfyzikální úlohy = flexible reasoning:

Schopnost kombinovat různé koncepty novým způsobem
Rozpoznat, kdy něco víš a kdy ne
Aplikovat znalosti v neznámém kontextu
Selský rozum a „cit" pro problém

V tomhle jsou AI stále na úrovni „sophisticated bullshit generator s naprostou sebedůvěrou".

Co dál?

Nedovedu říct, zda se svět za ty 3 roky změnil více nebo méně, než jsem čekal. A vlastně ani teď nedovedu říct, kolik z toho co „už je" ovlivňuje lidstvo a jednotlivce.

Nahrazování lidí AI většinou končí neúspěchem – a občas přímo spektakulárním (looking at you, Deloitte), jednotlivci začínají nahrazovat lidské vztahy AI, existuje několik startupů které vytváří digitální „kopie" mrtvých lidí…

Zkrátka docela divoké časy, kdy nemám nejmenší představu, jak to bude vypadat za další 3 roky.

Když o AI školím učitele, kladu jim na srdce hlavně 3 věci:

Vždycky si po AI přečtěte ten výstup, než ho dáte ven
Vždycky myslete na to, že je to stále program – využívejte ho jako nástroj, pomocníka a ne partnera pro život
Nebojte se s AI probírat cokoliv – od zdraví přes vztahy po tvorbu písniček. Ale když jde „o život" (zdraví, právo, finance), vždycky to proberte s člověkem v daném oboru