Publikováno
- 3 min čtení
OpenAI představuje revoluční modely O3 a O3 Mini

OpenAI představuje revoluční modely O3 a O3 Mini
OpenAI na konci své dvanáctidenní akce představila dva nové modely umělé inteligence, O3 a O3 Mini, které posouvají hranice možností v oblasti uvažování.
O3: Špičkový model pro komplexní úkoly
O3, jakožto vlajková loď, je navržen pro řešení vysoce komplexních úkolů, které vyžadují pokročilé logické myšlení a analýzu. Dosahuje vynikajících výsledků v širokém spektru disciplín, od softwarového inženýrství (s 71,7% přesností na testu SWE-bench) přes soutěžní programování (s impozantním skóre 2727 ELO na platformě Codeforces) až po náročné matematické úlohy (s 96,7% úspěšností na AIME 2024) a vědecké dotazy na úrovni doktorandského studia (s 87,7% úspěšností na GPQA Diamond). V některých z těchto testů dokonce O3 překonává i lidské experty, což demonstruje jeho ohromný potenciál.
Srovnání O3 s konkurencí
O jeho kvalitách svědčí i srovnání s konkurenčními modely ve vybraných metrikách:
Metrika | O3 | Gemini 1.5 (Flash/Pro) | Claude 3.5 (Sonnet) |
---|---|---|---|
Celková přesnost (Overall Accuracy) | 0.975 | 0.93 (Flash), 0.945 (Pro) | 0.91 |
Goodness@0.1 (StrongReject) - Schopnost odmítat nevhodné požadavky (vyšší hodnota = lepší) | 0.8–0.9 | 0.1–0.2 (Flash), 0.2–0.3 (Pro) | 0.4–0.5 |
Výkon v matematice (AIME 2024 - matematická soutěž pro středoškoláky) | 96.7 % | N/A | N/A |
Soutěžní programování (ELO skóre - podobné hodnocení jako v šachu) | 2727 | N/A | N/A |
Podpora structured outputs a function calling | Ano | Ne | Ne |
Z tabulky je patrné, že O3 dosahuje výrazně lepších výsledků v metrice Goodness@0.1 (StrongReject), která měří schopnost modelu odmítat nevhodné požadavky. O3 také jako jediný z porovnávaných modelů nativně podporuje „structured outputs” a „function calling”, což rozšiřuje jeho možnosti využití.
O3 Mini: Efektivní řešení pro široké spektrum uživatelů
Menší bratr O3, model O3 Mini, se zaměřuje na vyvážený poměr mezi výkonem a cenou. I když nedosahuje absolutních špičkových výsledků plnohodnotného O3, nabízí stále velmi solidní výkon v oblastech kódování a matematiky. Zajímavou funkcí O3 Mini je možnost nastavení úrovně uvažování – od nízké po vysokou – což uživatelům umožňuje optimalizovat výkon modelu pro konkrétní typy úloh a zároveň efektivně hospodařit s výpočetními zdroji. Tato flexibilita z něj činí atraktivní volbu pro vývojáře, kteří hledají cenově dostupné a přitom výkonné řešení.
Důraz na bezpečnost a veřejné testování
OpenAI si uvědomuje rostoucí zodpovědnost spojenou s vývojem takto pokročilých technologií a proto klade velký důraz na bezpečnost. V rámci tohoto úsilí zavádí nový program veřejného testování, do kterého se mohou zapojit výzkumníci a bezpečnostní experti. Ti budou mít možnost testovat modely O3 Mini a O3 a pomoci tak s identifikací a eliminací potenciálních rizik. Tato iniciativa má zajistit, že modely budou nasazovány zodpovědně a s ohledem na etické aspekty.
Deliberative Alignment: Nová technika pro zvýšení bezpečnosti
Kromě veřejného testování OpenAI představila i novou techniku pro zlepšení bezpečnosti modelů, nazvanou „deliberative alignment“ (promyšlené uspořádání). Tato metoda využívá uvažovacích schopností samotných modelů k definování a zpřesňování bezpečnostních hranic. Model tak dokáže analyzovat zadané vstupy a s pomocí logické analýzy lépe rozpoznat, zda jsou bezpečné, nebo zda představují potenciální riziko. Tato inovativní technika slibuje výrazné zlepšení v oblasti bezpečnosti a spolehlivosti modelů.
Dostupnost modelů O3 a O3 Mini
Podle plánů OpenAI by měl být O3 Mini zpřístupněn veřejnosti koncem ledna 2025, přičemž plná verze O3 by měla následovat krátce poté. Tyto modely představují významný krok vpřed v oblasti umělé inteligence a otevírají nové možnosti pro řešení komplexních problémů v různých odvětvích.