OpenAI aggiorna Codex con il controllo del computer e della memoria

  • Codex si integra con il computer: controlla le applicazioni desktop, visualizza lo schermo e utilizza un proprio cursore senza interrompere l'utente.
  • L'agente utilizza una nuova memoria, riutilizza le conversazioni e automatizza le attività a lungo termine con più agenti che lavorano in parallelo.
  • Include un browser integrato, la generazione di immagini con gpt-image-1.5 e un supporto migliorato per i flussi di lavoro degli sviluppatori.
  • L'aggiornamento arriverà prima su macOS; in Europa e nel Regno Unito alcune funzionalità saranno disponibili in ritardo a causa delle normative sulla protezione dei dati.

Aggiornamento del Codex tramite controllo computerizzato

OpenAI ha compiuto un ulteriore passo nell'integrazione di intelligenza artificiale nell'uso quotidiano del computer grazie a una completa riprogettazione di Codex, il suo agente di codice per desktop. Lo strumento, precedentemente noto principalmente per il suo supporto alla programmazione, si sta trasformando in un assistente in grado di gestire applicazioni, memorizzare preferenze e gestire progetti in modo quasi impeccabile.

Con questo aggiornamento, l'azienda guidata da Sam Altman si avvicina al suo piano di creazione di un Una "super app" per desktop che unifica ChatGPT, Codex e il tuo browser Atlas.L'obiettivo di questa mossa è semplificare l'esperienza utente, concentrare le risorse in un unico spazio di lavoro e competere con rivali come Anthropic, soprattutto nell'ambiente di sviluppo software e nell'automazione avanzata.

Codex impara a usare il computer come qualsiasi altro utente.

Uno dei cambiamenti più sorprendenti è che Codex ora può controllare il computer in backgroundL'agente è in grado di visualizzare il contenuto dello schermo, muovere il proprio cursore, cliccare, digitare testo e reagire a quanto accade nelle applicazioni installate, senza interrompere le operazioni dell'utente con il mouse o la tastiera.

Questa funzionalità consente a più agenti Codex di lavorare insieme in parallelo nella stessa squadraCiò implica l'esecuzione di test, la modifica di configurazioni o l'esecuzione di attività ripetitive mentre la persona continua a svolgere le proprie normali attività. Questo apre la strada all'automazione di flussi di lavoro che in precedenza richiedevano una supervisione costante, come il test di un'applicazione dopo ogni modifica del codice o la ripetizione di azioni di interfaccia.

OpenAI propone questa funzione come un modo per l'assistente di operare con strumenti che non dispongono di un'API o integrazioni dirette, una pratica comune in molti programmi desktop. Codex, "vedendo" lo schermo e controllando il cursore, può interagire con queste applicazioni proprio come farebbe un utente umano, sebbene per ora in modo controllato e con particolare attenzione alla sicurezza.

Secondo l'azienda, l'utilizzo del computer è inizialmente disponibile in macOS tramite l'applicazione desktop Codex, collegato a un account ChatGPT. La versione per Windows arriverà in seguito, una volta testate le prestazioni e adattate le funzionalità all'ambiente Microsoft.

Nel caso dell'Europa e del Regno Unito, OpenAI ha confermato che controllo computerizzato, personalizzazione avanzata, suggerimenti contestuali e memoria Verranno attivate in seguito. Il motivo è la necessità di adeguare queste funzionalità alle normative sulla protezione dei dati, un requisito particolarmente stringente nell'Unione Europea e nel mercato britannico.

Codex con controllo della memoria e delle app

Browser integrato e lavoro diretto sulle pagine web

L'aggiornamento rafforza anche il rapporto di Codex con il web grazie a un browser integrato all'interno dell'applicazione stessaAnziché ricevere semplicemente istruzioni testuali generiche, l'agente può ricevere comandi direttamente su elementi specifici di una pagina.

Nello sviluppo frontend, ad esempio, l'utente può Seleziona un componente web e descrivi la modifica. L'utente desidera eseguire un'azione (come cambiare il colore, la dimensione del testo o il layout di un blocco) e Codex comprende l'istruzione all'interno di quello specifico contesto visivo. Questo evita di dover scrivere lunghi messaggi che spiegano quale parte del sito deve essere modificata.

Questo browser integrato consente anche Codex Analizzare i contenuti, raccogliere informazioni e utilizzarle come contesto. Per altre attività, come la documentazione del codice, la revisione delle specifiche di prodotto o il confronto della documentazione tecnica, tutto viene svolto all'interno dello stesso ambiente, senza dover passare da una finestra all'altra del sistema operativo.

Generazione e modifica di immagini con gpt-image-1.5

Un altro pilastro della nuova versione di Codex è l'integrazione del modello gpt-image-1.5 per la creazione e la modifica di immagini Dall'interno dell'applicazione desktop stessa, l'agente può generare grafici, diagrammi, prototipi o schizzi visivi a partire da testo, oppure combinando istruzioni con screenshot e frammenti di codice.

Questa capacità è rivolta direttamente ai team che lavorano in progettazione di prodotti, interfacce utente o prototipi di videogiochiAd esempio, uno sviluppatore può acquisire uno screenshot di un'interfaccia incompleta, chiedere a Codex di suggerire una riprogettazione del menu o una nuova combinazione di colori e ottenere immagini generate che si adattino a quel contesto, senza dover cambiare strumento.

Con tutto centralizzato in Codex, gli agenti possono collegare tra loro le attività di programmazione e progettazioneScrivi la logica di una funzionalità, aggiorna il frontend corrispondente e genera un mockup visivo da presentare al team, senza uscire dal flusso di lavoro o dover aprire applicazioni di editing grafico esterne.

Memoria, contesto e automazione delle attività a lungo termine

Oltre al controllo del computer e alla generazione di immagini, la grande scommessa di OpenAI con questa versione è quella di dotare Codex di un memoria persistente e gestione del contesto molto più ampiaLo strumento è in grado di riutilizzare conversazioni precedenti, conservare informazioni importanti e recuperarle quando necessario per proseguire un progetto.

La funzione di memoria, che viene rilasciata in anteprima, consente a Codex ricordare preferenze personali, correzioni frequenti o dati difficili da raccogliereQuesto include tutto, dallo stack tecnologico tipico di un team al modo in cui sono organizzate le cartelle, dai formati di report più comunemente usati al tag solitamente utilizzato su GitHub per determinati tipi di problemi.

Con quel contesto accumulato, l'agente può proporre proattivamente compitiQuesto strumento può essere utilizzato per suggerire di riprendere un progetto incompiuto, raccomandare un refactoring in sospeso o notificare agli utenti la presenza di pull request in sospeso da tempo. Alcune aziende lo utilizzano già per monitorare le conversazioni su Slack, Gmail o Notion e reagire al verificarsi di determinati eventi.

Il Codex può anche Pianifica il lavoro per il futuro e riattiva la tua attività in modo autonomo. per completare attività a lungo termine. Ad esempio, può gestire una coda di revisioni del codice per giorni o settimane, rispondendo ai commenti e aggiornando la documentazione senza che lo sviluppatore debba monitorarla costantemente.

Oltre 90 componenti aggiuntivi e un supporto per sviluppatori migliorato.

Per completare il cambiamento, OpenAI ha aggiunto quasi 90 nuovi plugin per CodexQueste includono integrazioni con Microsoft Suite, GitLab Issues, Neon di Databricks, Render e Superpowers, nonché il supporto per i server MCP (Model Context Protocol). L'obiettivo è fornire all'agente più fonti di contesto e maggiori capacità operative.

Grazie a questi plugin, Codex può raccogliere informazioni da diversi servizi e agire di conseguenza Da un unico spazio di lavoro, è possibile esaminare i problemi in GitLab, interrogare i dati in un ambiente Databricks, aggiornare i documenti di Office o interagire con i servizi di distribuzione, senza costringere l'utente a passare da una piattaforma all'altra.

A livello puramente tecnico, l'aggiornamento rafforza il flussi di lavoro tipici degli sviluppatoriOra Codex ti aiuta a rivedere le pull request, gestire più schede del terminale contemporaneamente, connetterti ad ambienti di sviluppo remoti tramite SSH e aprire file con anteprime dettagliate, che si tratti di PDF, fogli di calcolo, presentazioni o documenti in altri formati.

Tutto ciò è concentrato in un'esperienza unificata che, secondo la stessa OpenAI, consente progressi più rapidi. in tutte le fasi del ciclo di vita del softwareDalla scrittura del codice iniziale al collaudo, alla distribuzione, alla documentazione e alla manutenzione, con agenti di intelligenza artificiale che collaborano continuamente all'interno dello stesso ambiente desktop.

Disponibilità, attenzione agli sviluppatori e situazione in Europa

La nuova versione di Codex è già in fase di distribuzione nel applicazione desktop per macOS Per chi accede con un account ChatGPT. Non tutte le funzionalità richiedono lo stesso tipo di abbonamento e alcune funzionalità avanzate potrebbero dipendere dal piano acquistato, come accade con altri strumenti OpenAI.

Thibault Sottiaux, direttore di Codex, ha spiegato che questo aggiornamento È particolarmente orientato agli sviluppatoriSebbene l'intenzione sia quella di estenderlo a un pubblico più ampio in seguito, l'idea è che i team tecnici saranno i primi a sfruttare i nuovi agenti e i flussi di lavoro automatizzati e, nel tempo, trasferire questo modello alle attività d'ufficio, alla gestione dei documenti o alla produttività personale.

OpenAI sottolinea che l'uso della potenza di calcolo e della memoria è implementato con un approccio alla sicurezza e alla conformità normativaCiò è particolarmente rilevante nell'Unione Europea e nel Regno Unito. Per questo motivo, funzionalità di personalizzazione avanzate, suggerimenti contestuali, memoria persistente e controllo diretto del sistema operativo richiederanno un po' più di tempo per essere disponibili in questi mercati.

In ogni caso, l'azienda sostiene che questa evoluzione di Codex apre le porte a un Super-applicazione desktop focalizzata sull'automazione intelligentedove gli agenti di intelligenza artificiale non solo aiutano a scrivere codice, ma coordinano anche le attività, si adattano allo stile di lavoro dell'utente e mantengono in esecuzione progetti complessi per periodi prolungati. Per gli sviluppatori di software in Europa, il messaggio è chiaro: nuove funzionalità sono in arrivo, ma con i necessari adattamenti per rientrare nel quadro normativo esistente.