GPT-Rosalind míří z benchmarků do řízené vědy | Radar

OpenAI aktualizovala GPT-Rosalind pro life sciences a nabízí ji v research preview vybraným organizacím globálně. Zajímavější než skóre je pokus spojit model, Codex a bioinformatické nástroje do auditovatelného workflow.

Rosalind dostává modelovou inteligenci i pracovní stůl pro vědce

OpenAI představila update GPT-Rosalind, série určené pro výzkum v life sciences na enterprise úrovni. Podle oznámení kombinuje schopnosti GPT-5.5 v agentic coding a tool use se silnější inteligencí v oblastech jako medicinal chemistry, genomics, experimentální workflow a širší biologická analýza.

Firma k tomu staví vlastní eval LifeSciBench, který má posuzovat práci napříč šesti oblastmi: evidence handling, analysis, design and optimization, scientific reasoning, validation and operations a translation and communication. Vedle toho uvádí MedChemBench, GeneBench a LabWorkBench. U MedChemBench tvrdí 27,5 % proti 25,1 % u GPT-5.5 a o 7,2 % méně tokenů. U GeneBench uvádí 21,6 % proti 20,4 % a o 31 % méně tokenů. U LabWorkBench pak 63,2 % proti 55,8 % a o 5,3 % méně tokenů.

Důležitá je i distribuce. GPT-Rosalind je v research preview pro eligible organizations globally přes trusted-access deployment. OpenAI zároveň píše, že Life Sciences Research a Life Sciences NGS Analysis plugins jsou dostupné všem uživatelům přes Codex, zatímco kvalifikovaní enterprise uživatelé GPT-Rosalind je mohou pohánět přímo tímto modelem.

Pro laboratoře je cennější provenance než další chatbot

Tato zpráva není jen o lepším skóre na vědeckých úlohách. OpenAI se snaží posunout AI ve vědě od odpovědí v chatu k pracovní vrstvě, která čte literaturu, spouští bioinformatické kroky, zachovává artefakty a dovoluje expertovi kontrolovat výsledek. To je správný směr, protože ve vědě není problém jen vygenerovat hypotézu. Problém je ukázat, odkud přišla a co přesně se stalo cestou.

Pro R&D týmy to znamená jiný nákupní rozhovor. Nebude stačit otázka, zda model „rozumí biologii“. Podstatnější bude, jestli se dá napojit na interní data, auditovat, omezit na schválené nástroje a bezpečně provozovat v prostředí s citlivými biologickými schopnostmi.

Benchmarky ukazují směr, ne klinickou pravdu

Všechna čísla jsou zatím vendor-reported. LifeSciBench i LabWorkBench mohou být užitečné, ale čtenář by je neměl plést s důkazem, že systém zrychlí reálný drug discovery program nebo zlepší rozhodnutí v klinickém vývoji. OpenAI sama rámuje přístup přes trusted access, governance a expert review, což je v této doméně minimum, ne bonus.

Riziko je i v tom, že biologická kompetence roste rychleji než organizační schopnost ji bezpečně provozovat. Pokud agent pracuje s genomikou, strukturami a laboratorními postupy, slabým místem není jen halucinace. Slabým místem je špatně schválený nástroj, neviditelný krok v pipeline nebo výstup, který vypadá věrohodněji, než je.

Auditovaný experiment u externího týmu bude silnějším signálem než skóre

Další signál bude praktický: případová studie, kde externí vědecký tým ukáže, že Rosalind zkrátila konkrétní workflow a zároveň nechala dost stop pro reprodukci. Ještě silnější bude nezávislé srovnání na neveřejných úlohách, kde nebude měřit jen accuracy, ale i čas experta, chybovost, provenance a bezpečnostní zásahy.

Pokud se OpenAI podaří obhájit trusted access jako bezpečný produktový model, získá páku v nejcitlivější části enterprise AI. Pokud ne, zůstane Rosalind výkonnou laboratoří za zamčenými dveřmi.

Lilithin verdikt

GPT-Rosalind není jen biologický model. Je to platforma, u které budou právník, vědec a security tým stát nad jedním notebookem a hádat se, kdo smí stisknout Run.