Radar — Lilith AI

2026-05-11

Quoting James Shore

19:48 · źródło ↗

Sygnał Radaru: Your AI coding agent, the one you use to write code, needs to reduce your maintenance costs. Not by a little bit, either. You write code twice as quick now? Better hope you’ve halved your maintenance costs. Three times as productive? One third the maintenance costs. Otherwise, you’re screwed. You’re trading a temporary speed boost for permanent indenture. [...] The math only works if the LLM decreases your maintenanc…

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Quoting James Shore ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #ai #models #coding #simonwillison #commentary

2026-05-08

Running Codex safely at OpenAI

12:30 · źródło ↗

Sygnał Radaru: How OpenAI runs Codex securely with sandboxing, approvals, network policies, and agent-native telemetry to support safe and compliant coding agent adoption

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Running Codex safely at OpenAI ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #openai #ai #coding

2026-05-07

Behind the Scenes Hardening Firefox with Claude Mythos Preview

17:56 · źródło ↗

Sygnał Radaru: Behind the Scenes Hardening Firefox with Claude Mythos Preview Fascinating, in-depth details on how Mozilla used their access to the Claude Mythos preview to locate and then fix hundreds of vulnerabilities in Firefox: Suddenly, the bugs are very good Just a few months ago, AI-generated security bug reports to open source projects were mostly known for being unwanted slop. Dealing with reports that look plausibly corr…

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Behind the Scenes Hardening Firefox with Claude Mythos Preview ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#ai #models #coding #security #simonwillison #commentary

2026-05-06

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

10:43 · źródło ↗

Sygnał Radaru: Explore how AlphaEvolve's Gemini-powered algorithms are driving impact across business, infrastructure, and science

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #research #deepmind #ai #models #coding #google

2026-05-01

[AINews] Agents for Everything Else: Codex for Knowledge Work, Claude for Creative Work

04:53 · źródło ↗

Sygnał Radaru: a quiet day lets us reflect on coding agents "breaking containment"

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: [AINews] Agents for Everything Else: Codex for Knowledge Work, Claude for Creative Work ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #ai #models #coding #commentary #podcast

2026-04-28

Our commitment to community safety

00:00 · źródło ↗

Sygnał Radaru: Learn how OpenAI protects community safety in ChatGPT through model safeguards, misuse detection, policy enforcement, and collaboration with safety experts

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Our commitment to community safety ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#openai #ai #models #policy #security

2026-04-23

GPT-5.5 Bio Bug Bounty

00:00 · źródło ↗

Sygnał Radaru: Explore the GPT-5.5 Bio Bug Bounty: a red-teaming challenge to find universal jailbreaks for bio safety risks, with rewards up to $25,000

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: GPT-5.5 Bio Bug Bounty ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#openai #ai #models #security

2026-04-21

Introducing ChatGPT Images 2.0

12:00 · źródło ↗

Sygnał Radaru: ChatGPT Images 2.0 introduces a state-of-the-art image generation model with improved text rendering, multilingual support, and advanced visual reasoning

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Introducing ChatGPT Images 2.0 ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#openai #ai #models #multimodal

2026-04-15

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

12:07 · źródło ↗

Notatka Radaru o Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents: temat wart śledzenia w kontekście agentów AI, ewaluacji modeli, bezpieczeństwa albo produkcyjnych workflow.

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #huggingface #ai #open-source

2026-01-20

Cisco and OpenAI redefine enterprise engineering with AI agents

11:00 · źródło ↗

Sygnał Radaru: Cisco and OpenAI redefine enterprise engineering with Codex, an AI software agent embedded in workflows to speed builds, automate defect fixes, and enable AI-native development

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Cisco and OpenAI redefine enterprise engineering with AI agents ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #openai #ai #coding

2025-12-18

Introducing GPT-5.2-Codex

00:00 · źródło ↗

Sygnał Radaru: GPT-5.2-Codex is OpenAI’s most advanced coding model, offering long-horizon reasoning, large-scale code transformations, and enhanced cybersecurity capabilities

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Introducing GPT-5.2-Codex ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#openai #ai #models #coding #security

2025-12-16

Evaluating AI’s ability to perform scientific research tasks

09:00 · źródło ↗

Sygnał Radaru: OpenAI introduces FrontierScience, a benchmark testing AI reasoning in physics, chemistry, and biology to measure progress toward real scientific research

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Evaluating AI’s ability to perform scientific research tasks ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#openai #benchmarks #ai

2025-11-19

GPT-5.1-Codex-Max System Card

00:00 · źródło ↗

Sygnał Radaru: This system card outlines the comprehensive safety measures implemented for GPT‑5.1-CodexMax. It details both model-level mitigations, such as specialized safety training for harmful tasks and prompt injections, and product-level mitigations like agent sandboxing and configurable network access

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: GPT-5.1-Codex-Max System Card ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #openai #ai #models #coding #security

2025-11-18

Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

00:00 · źródło ↗

Notatka Radaru o Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark: temat wart śledzenia w kontekście agentów AI, ewaluacji modeli, bezpieczeństwa albo produkcyjnych workflow.

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#benchmarks #ai #models #multimodal #simonwillison #commentary

2025-11-06

Code research projects with async coding agents like Claude Code and Codex

00:00 · źródło ↗

Notatka Radaru o Code research projects with async coding agents like Claude Code and Codex: temat wart śledzenia w kontekście agentów AI, ewaluacji modeli, bezpieczeństwa albo produkcyjnych workflow.

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Code research projects with async coding agents like Claude Code and Codex ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #ai #models #coding #simonwillison #commentary

2025-11-02

New prompt injection papers: Agents Rule of Two and The Attacker Moves Second

00:00 · źródło ↗

Notatka Radaru o New prompt injection papers: Agents Rule of Two and The Attacker Moves Second: temat wart śledzenia w kontekście agentów AI, ewaluacji modeli, bezpieczeństwa albo produkcyjnych workflow.

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: New prompt injection papers: Agents Rule of Two and The Attacker Moves Second ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #ai #security #simonwillison #commentary

2025-10-29

gpt-oss-safeguard technical report

00:00 · źródło ↗

Sygnał Radaru: gpt-oss-safeguard-120b and gpt-oss-safeguard-20b are two open-weight reasoning models post-trained from the gpt-oss models and trained to reason from a provided policy in order to label content under that policy. In this report, we describe gpt-oss-safeguard’s capabilities and provide our baseline safety evaluations on the gpt-oss-safeguard models, using the underlying gpt-oss models as a baseline. For more informati…

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: gpt-oss-safeguard technical report ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#openai #benchmarks #ai #models #policy #security

2025-10-23

Introducing the Gemini 2.5 Computer Use model

18:40 · źródło ↗

Sygnał Radaru: Available in preview via the API, our Computer Use model is a specialized model built on Gemini 2.5 Pro’s capabilities to power agents that can interact with user interfaces

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: Introducing the Gemini 2.5 Computer Use model ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #research #deepmind #ai #models #google

2025-10-20

Claude Code for web — asynchronous coding agent in a sandbox

00:00 · źródło ↗

Simon Willison przetestował Claude Code for web: Anthropic opakował doświadczenie lokalnego Claude Code w hostowany sandbox i udostępnił je z webu oraz telefonu. Najważniejsza zmiana nie jest efektowna, tylko praktyczna: agenci kodujący stają się użyteczniejsi, gdy mogą działać asynchronicznie i bezpiecznie poza laptopem.

Dlaczego to ważne: Najważniejszy nie jest sam webowy interfejs. Ważne jest to, że agent kodujący staje się asynchronicznym pracownikiem: zlecasz mu zadanie, pozwalasz działać w izolowanym środowisku i wracasz do diffa albo PR-a.

opiniaTo mniej nowy edytor, a bardziej infrastruktura do delegowania pracy. Jeśli agent może działać w trybie YOLO bez nieograniczonego dostępu do plików i sieci, wreszcie można mówić o produktywności bez podpisywania bezpieczeństwa własną krwią.

#agents #ai #models #coding #simonwillison #commentary

2025-09-16

How GPT5 + Codex took over Agentic Coding — ft. Greg Brockman, OpenAI

00:16 · źródło ↗

Sygnał Radaru: Belated catchup on our podcast with Greg Brockman, + latest takes on the new GPT-5-Codex model

Dlaczego to ważne: Ten temat trafia do Radaru, bo pokazuje konkretną zmianę w tym, jak systemy AI są budowane, oceniane, zabezpieczane, sprzedawane albo wdrażane. Praktyczne pytanie nie brzmi, czy nagłówek robi wrażenie, lecz czy zmienia realne workflow: narzędzia deweloperskie, bezpieczeństwo agentów, ewaluację modeli, governance albo koszt utrzymania pracy wspieranej przez AI.

opiniaWarto obserwować, ale bez połykania marketingu w całości: How GPT5 + Codex took over Agentic Coding — ft. Greg Brockman, OpenAI ma znaczenie dopiero wtedy, gdy mechanizm, ograniczenia i realny wpływ przejdą kontrolę.

#agents #ai #models #coding #commentary #podcast