OpenAI představuje revoluční modely O3 a O3 Mini

OpenAI na konci své dvanáctidenní akce představila dva nové modely umělé inteligence, O3 a O3 Mini, které posouvají hranice možností v oblasti uvažování.

O3: Špičkový model pro komplexní úkoly

O3, jakožto vlajková loď, je navržen pro řešení vysoce komplexních úkolů, které vyžadují pokročilé logické myšlení a analýzu. Dosahuje vynikajících výsledků v širokém spektru disciplín, od softwarového inženýrství (s 71,7% přesností na testu SWE-bench) přes soutěžní programování (s impozantním skóre 2727 ELO na platformě Codeforces) až po náročné matematické úlohy (s 96,7% úspěšností na AIME 2024) a vědecké dotazy na úrovni doktorandského studia (s 87,7% úspěšností na GPQA Diamond). V některých z těchto testů dokonce O3 překonává i lidské experty, což demonstruje jeho ohromný potenciál.

Srovnání O3 s konkurencí

O jeho kvalitách svědčí i srovnání s konkurenčními modely ve vybraných metrikách:

Metrika	O3	Gemini 1.5 (Flash/Pro)	Claude 3.5 (Sonnet)
Celková přesnost (Overall Accuracy)	0.975	0.93 (Flash), 0.945 (Pro)	0.91
Goodness@0.1 (StrongReject) - Schopnost odmítat nevhodné požadavky (vyšší hodnota = lepší)	0.8–0.9	0.1–0.2 (Flash), 0.2–0.3 (Pro)	0.4–0.5
Výkon v matematice (AIME 2024 - matematická soutěž pro středoškoláky)	96.7 %	N/A	N/A
Soutěžní programování (ELO skóre - podobné hodnocení jako v šachu)	2727	N/A	N/A
Podpora structured outputs a function calling	Ano	Ne	Ne

Z tabulky je patrné, že O3 dosahuje výrazně lepších výsledků v metrice Goodness@0.1 (StrongReject), která měří schopnost modelu odmítat nevhodné požadavky. O3 také jako jediný z porovnávaných modelů nativně podporuje „structured outputs” a „function calling”, což rozšiřuje jeho možnosti využití.

O3 Mini: Efektivní řešení pro široké spektrum uživatelů

Menší bratr O3, model O3 Mini, se zaměřuje na vyvážený poměr mezi výkonem a cenou. I když nedosahuje absolutních špičkových výsledků plnohodnotného O3, nabízí stále velmi solidní výkon v oblastech kódování a matematiky. Zajímavou funkcí O3 Mini je možnost nastavení úrovně uvažování – od nízké po vysokou – což uživatelům umožňuje optimalizovat výkon modelu pro konkrétní typy úloh a zároveň efektivně hospodařit s výpočetními zdroji. Tato flexibilita z něj činí atraktivní volbu pro vývojáře, kteří hledají cenově dostupné a přitom výkonné řešení.

Důraz na bezpečnost a veřejné testování

OpenAI si uvědomuje rostoucí zodpovědnost spojenou s vývojem takto pokročilých technologií a proto klade velký důraz na bezpečnost. V rámci tohoto úsilí zavádí nový program veřejného testování, do kterého se mohou zapojit výzkumníci a bezpečnostní experti. Ti budou mít možnost testovat modely O3 Mini a O3 a pomoci tak s identifikací a eliminací potenciálních rizik. Tato iniciativa má zajistit, že modely budou nasazovány zodpovědně a s ohledem na etické aspekty.

Deliberative Alignment: Nová technika pro zvýšení bezpečnosti

Kromě veřejného testování OpenAI představila i novou techniku pro zlepšení bezpečnosti modelů, nazvanou „deliberative alignment“ (promyšlené uspořádání). Tato metoda využívá uvažovacích schopností samotných modelů k definování a zpřesňování bezpečnostních hranic. Model tak dokáže analyzovat zadané vstupy a s pomocí logické analýzy lépe rozpoznat, zda jsou bezpečné, nebo zda představují potenciální riziko. Tato inovativní technika slibuje výrazné zlepšení v oblasti bezpečnosti a spolehlivosti modelů.

Dostupnost modelů O3 a O3 Mini

Podle plánů OpenAI by měl být O3 Mini zpřístupněn veřejnosti koncem ledna 2025, přičemž plná verze O3 by měla následovat krátce poté. Tyto modely představují významný krok vpřed v oblasti umělé inteligence a otevírají nové možnosti pro řešení komplexních problémů v různých odvětvích.