Ieri OpenAI ha alzato il velo sul suo ultimo modello linguistico di grandi dimensioni (LLM): Chat GPT 4o (dove la “o” sta per “omni”, nativamente multimediale), un modello che rappresenta un nuovo passo in avanti nell'interazione uomo-macchina.
Chat GPT 4o, o Generative Pre-trained Transformer 4, è un modello di intelligenza artificiale basato su reti neurali ricorrenti, sviluppato da OpenAI. Come le sue versioni precedenti, Chat GPT 4o è progettato per generare testo coerente e umanamente comprensibile, rispondendo a domande e interagendo con gli utenti in modo naturale. La nuova versione introduce diversi miglioramenti che lo rendono più avanzato e versatile.
Nell’attuale fase, ha rimarcato Mira Murati, Chief Technology Officer di OpenAI, la volontà è quella di mettere sullo stesso livello le opportunità che hanno a disposizione gli utenti paganti e quelle che usano l'intelligenza artificiale generativa in maniera gratuita. “Una parte importante della nostra missione è rendere i nostri strumenti disponibili a tutti”, ha detto la manager nel corso dell’evento di presentazione, lo Spring Update. Su X, Sam Altman le ha fatto eco: “il nostro miglior modello di sempre. È intelligente, veloce e nativamente multimodale, e....disponibile a tutti gli utenti”.
Novità di Chat GPT 4o
Le principali novità includono:
- un miglioramento della comprensione contestuale: è in grado di comprendere e rispondere alle richieste degli utenti in modo più preciso perché tiene conto, in maniera più accurata, del contesto in cui la conversazione si svolge;
- capacità multilingue potenziate: rispetto alle versioni precedenti, la nuova versione supporta un numero maggiore di lingue ed è in grado di fornire risposte più accurate e fluide in diverse lingue;
- maggiore coerenza e coesione: grazie a miglioramenti nell'architettura del modello, Chat GPT 4o produce testo con una maggiore coerenza e coesione, rendendo le interazioni più fluide e naturali;
- multimodalità: una delle caratteristiche rivoluzionarie della nuova versione è la sua capacità di elaborare e generare informazioni attraverso diverse modalità, tra cui testo, codice, immagini e audio. “GPT-4o elabora voce, testo e visione”, ha affermato Murati. Questo consente un'interazione più naturale e intuitiva con il modello, aprendo nuove frontiere per la comunicazione e la collaborazione uomo-macchina;
- velocità: “è in grado - si legge sul sito del progetto - di rispondere agli input audio in appena 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano in una conversazione”;
- sicurezza e affidabilità: OpenAI ha posto particolare attenzione alla sicurezza e all'affidabilità di questa nuova versione, implementando diverse misure per prevenire la generazione di contenuti dannosi o offensivi. Inoltre, il modello è stato addestrato su un dataset accuratamente selezionato per garantire la coerenza e l'accuratezza delle informazioni generate.
Come funziona Chat GPT 4o?
GPT 4o è la quarta generazione dell'architettura GPT, uno dei modelli leading nel campo del Natural Language Processing (NLP). Il funzionamento di Chat GPT 4o si basa sul principio delle reti neurali ricorrenti e sul processo di apprendimento supervisionato.
Il modello viene addestrato su enormi quantità di testo provenienti da varie fonti, acquisendo così una vasta conoscenza linguistica e contestuale. Quando un utente interagisce con Chat GPT 4o, il modello analizza il testo di input, lo confronta con il contesto della conversazione e genera una risposta appropriata utilizzando la sua comprensione del linguaggio e del contesto: la maggiore differenza rispetto alle precedenti versioni sta nella capacità di comprendere significativamente più sfumature e dettagli del linguaggio umano.
Due piccole curiosità
Dalla presentazione del nuovo modello sono emerse due piccole curiosità: la prima è legata alla tempistica, 24 ore prima della Google I/O 2024, la seconda è rappresentata dall’utilizzo esclusivo di prodotti Apple nel corso delle dimostrazioni. Sono in arrivo nuovi annunci?