Data: 12/05/2024 07:00:00 - Autore: Luisa Claudia Tessore

Modelli di Intelligenza Artificiale

[Torna su]

Presentata nel 2018 da OpenAI, GPT-1, prima iterazione della rivoluzionaria serie dei Generative Pre-trained Transformer (GPT), ha segnato un significativo passo avanti nelle capacità di elaborazione del linguaggio naturale e dell'IA, dimostrando il potenziale dei modelli linguistici pre-addestrati (Pre-trained Language Models, PLM), reti neurali artificiali addestrate su grandi quantità di testo non annotato.

Tali modelli, imparando automaticamente le regolarità linguistiche e le strutture semantiche presenti nei testi, sono in grado di svolgere una vasta gamma di compiti di elaborazione del linguaggio naturale. La locuzione "testo non annotato" si riferisce a grandi collezioni di testo scritto, come articoli di giornale, libri, pagine web e altri documenti, che non sono stati annotati o contrassegnati manualmente con informazioni aggiuntive. Questo tipo di testo non contiene etichette o marcatori che indicano la struttura del linguaggio o il significato delle parole o delle frasi. In altre parole, non vi è stata alcuna manipolazione manuale del testo per indicare informazioni specifiche come il tema, il sentiment o le entità menzionate. I modelli linguistici pre-addestrati imparano automaticamente dalle caratteristiche del testo stesso, senza l'ausilio di annotazioni umane, acquisendo una comprensione generale del linguaggio attraverso l'analisi statistica delle parole e delle loro interazioni nei contesti.

OpenAI: una storia di innovazione nell'Intelligenza Artificiale

[Torna su]

Fondata nel 2015 da un gruppo di personalità influenti nel mondo della tecnologia, tra cui Sam Altman, Greg Brockman, Reid Hoffman, Jessica Livingston, Peter Thiel ed Elon Musk, insieme ad altre aziende e entità come Amazon Web Services (AWS), Infosys e YC Research, OpenAI ha avuto quale impulso iniziale la profonda convinzione che la traiettoria dello sviluppo dell'IA dovesse essere guidata da principi allineati con il benessere umano, la sicurezza e l'ampio impatto sociale. I fondatori immaginavano un'organizzazione capace di navigare nel complesso terreno della ricerca sull'IA, dando priorità, allo stesso tempo, al benessere a lungo termine dell'umanità. Tale ethos fondativo è racchiuso nella OpenAI Charter, un documento fondamentale che espone l'impegno dell'organizzazione a principi come benefici ampiamente distribuiti, sicurezza a lungo termine, leadership tecnica e orientamento cooperativo. I progetti e le iniziative di ricerca iniziali hanno mostrato un impegno nel superare i confini delle capacità dell'IA, riflettendo l'ambizione dei fondatori nel promuovere progressi che trascendono le applicazioni limitate e contribuiscono alla comprensione più ampia dell'intelligenza artificiale generale (Artificial General Intelligence AGI). I primi progetti di ricerca intrapresi da OpenAI riflettevano una gamma diversificata di interessi e sfide: dall'elaborazione del linguaggio naturale, all'apprendimento per rinforzo (reinforcement learning), tecnica di machine learning che addestra il software a prendere decisioni per ottenere i risultati migliori, imitando il processo di apprendimento basato su tentativi ed errori utilizzato dagli esseri umani per raggiungere i propri obiettivi, alla robotica, l'approccio multidisciplinare dell'organizzazione mostrava una comprensione olistica delle complessità intrinseche nello sviluppo di sistemi intelligenti. Tali progetti non solo miravano ad affrontare sfide tecniche immediate, ma contribuivano anche a fornire conoscenze preziose alla più ampia comunità scientifica, in linea con l'impegno di OpenAI verso la trasparenza e la condivisione della conoscenza. Il percorso di OpenAI nel campo dell'intelligenza artificiale è caratterizzato da una serie di tecnologie innovative che non solo hanno ne hanno ridefinito i confini, ma hanno anche posizionato l'organizzazione quale pioniere nel panorama globale dell'IA. Tra queste, nell'ambito dell'elaborazione del linguaggio naturale, i modelli GPT (Generative Pre-trained Transformer), che hanno dimostrato capacità di comprensione e generazione del linguaggio senza precedenti, consentendo applicazioni che vanno dalla traduzione linguistica, alla generazione di contenuti. GPT-3, in particolare, ha rappresentato il culmine degli avanzamenti nel pre-addestramento su larga scala, attirando l'attenzione per la sua capacità di generare testo simile a quello umano in contesti diversi. Le considerazioni etiche e la ricerca di un'intelligenza artificiale responsabile rappresentano i principi fondamentali nella missione di OpenAI, fornendo una bussola morale che ha guidato la parabola dell'organizzazione fin dalla sua nascita. Riconoscendo le implicazioni di vasta portata delle tecnologie dell'IA su individui e società, OpenAI pone un'enfasi fondamentale nell'infondere principi etici in ogni aspetto dei suoi processi di ricerca, sviluppo e implementazione. Elemento centrale la sua posizione proattiva nell'individuare e correggere potenziali pregiudizi all'interno dei sistemi di intelligenza artificiale: riconoscendone il rischio intrinseco, OpenAI si impegna in sistemi di IA che privilegiano la giustizia, l'imparzialità e l'inclusività, oltre all'imperativo di garantire una distribuzione equa dei benefici derivanti, enfatizzando una prospettiva globale che va oltre gli interessi individuali.[1]

I Large Language Models (LLMs)

[Torna su]

Modelli di intelligenza artificiale addestrati su enormi quantità di testo e dati provenienti da fonti su Internet, tra cui libri, articoli, trascrizioni video e altri contenuti, gli LLMs utilizzano il deep learning per la comprensione, per poi eseguire compiti quali la sintesi e la generazione di contenuti, facendo previsioni basate sul loro input e addestramento. Possono essere addestrati su più di un petabyte di dati. Un petabyte corrisponde a 1.024 terabyte (TB) o a 1.048.576 gigabyte (GB). Richiedono un esteso processo di addestramento e ottimizzazione prima di poter fornire risultati affidabili: identificazione dell'obiettivo/scopo che influenza da quali fonti di dati attingere. L'obiettivo e il caso d'uso del LLM possono evolversi per includere nuovi elementi man mano che viene addestrato e ottimizzato. Pre-addestramento che richiede un insieme di dati ampio e diversificato, che devono essere raccolti e puliti in modo che siano standardizzati per il consumo. Tokenizzazione, ovvero la suddivisione del testo, all'interno dell'insieme di dati, in unità più piccole in modo che il LLM possa comprendere parole o sottoinsiemi di parole. La tokenizzazione aiuta il LLM a comprendere frasi, paragrafi e documenti imparando prima le parole e i sottoinsiemi di parole. Come verrà spiegato nel proseguo, questo processo abilita il modello di trasformazione e la rete neurale di trasformatori, classe di modelli di intelligenza artificiale che apprendono il contesto dei dati sequenziali. Selezione dell'infrastruttura: un LLM ha bisogno di risorse computazionali, quali computer potenti o i server basati su cloud per gestire l'addestramento. Addestramento, con l'impostazione dei parametri per il processo, quali il batch size, numero di esempi di dati (come frasi o documenti) che vengono elaborati insieme in una singola iterazione del processo di addestramento o il learning rate, iperparametro che controlla l'entità con cui i parametri del modello vengono aggiornati durante il processo di addestramento. In altre parole, determina quanto velocemente o lentamente il modello impara dai dati di addestramento. Ottimizzazione o fine-tuning: l'addestramento è un processo iterativo, il che significa che un individuo presenterà dati al modello, valuterà il suo output e quindi regolerà i parametri per migliorare i suoi risultati e ottimizzare il modello. I LLMs possono essere utilizzati per portare a termine molte attività che comunemente richiederebbero agli esseri umani molto tempo, come la generazione di testo, la traduzione, la sintesi del contenuto, la riscrittura, la classificazione e l'analisi del sentiment. Possono anche alimentare chatbot, che consentono ai clienti di porre domande e cercare aiuto o risorse senza dover entrare in una coda di supporto. Le persone possono interagire con i LLMs attraverso una piattaforma di intelligenza artificiale conversazionale, formulando domande o fornendo comandi. Questo processo è noto come "ingegneria del prompt", dove gli LLMs vengono istruiti attraverso input testuali specifici per generare risposte desiderate. È fondamentale sottolineare che i LLMs non sono progettati per sostituire gli esseri umani, ma piuttosto per integrarsi con le attività umane, migliorando l'efficienza e l'accelerazione della produttività. Possono aiutare a superare gli ostacoli nella scrittura, automatizzare compiti noiosi o ripetitivi e consentire agli individui di concentrarsi su obiettivi più significativi o creativi.

Esistono diversi tipi di LLMs, basati sulla modalità con cui vengono addestrati. I più comuni includono: Zero-shot models, che possono eseguire compiti senza essere addestrati su esempi specifici. Fine-tuned or domain-specific models, modelli addestrati o specifici per un dominio che ricevono un ulteriore addestramento su set di dati specifici per migliorare il loro output o prestazioni per un compito o un'applicazione distinta. Language representation models, progettati per comprendere e generare linguaggio, utili per l'elaborazione del linguaggio naturale. Tali modelli vengono ulteriormente addestrati per comprendere le sfumature del linguaggio, come contesto e sintassi. Multimodal models, che possono elaborare e comprendere informazioni da diverse modalità, come audio, immagini, testo o video. I modelli multimodali possono elaborare tali modalità sia come input (ciò che l'utente fornisce al modello per generare la sua risposta) che come output (ciò che il modello fornisce in risposta alla richiesta dell'utente).[2]

I Generative Pre-trained Transformer (GPT)

[Torna su]

Classe di modelli di apprendimento automatico, i GPT sono una famiglia di LLMs sviluppati utilizzando tecniche di deep learning e progettati per generare testo naturale; utilizzano un'architettura di rete neurale chiamata Transformer, introdotta nel documento di ricerca intitolato "Attention is All You Need", pubblicato nel 2017 da un team di Google. Tale architettura, diventata un punto di riferimento nel campo dell'elaborazione del linguaggio naturale (Natural Language Processing NLP), ha rivoluzionato il modo in cui le reti neurali possono modellare le dipendenze a lungo raggio nei dati sequenziali. Il linguaggio naturale è infatti caratterizzato da una serie di proprietà che lo rendono complesso per l'elaborazione automatica da parte delle reti neurali: ad esempio, le frasi possono avere lunghezze variabili, e le relazioni tra le parole possono essere articolate e dipendere dal contesto. Inoltre, spesso ci sono dipendenze a lungo raggio tra le parole all'interno di una frase o di un testo, il che significa che la comprensione di una parola può richiedere la considerazione di informazioni distanti all'interno della sequenza.[3]

Prima dell'introduzione del Transformer, le reti neurali utilizzate per l'elaborazione del linguaggio naturale facevano ampio uso di architetture quali le reti neurali ricorrenti (Recurrent Neural Networks RNN) o le reti neurali a memoria a breve termine (Long Short-Term Memory Neural Networks LSTM), limitate nel gestire le dipendenze a lungo raggio nei dati sequenziali. Il Transformer ha rivoluzionato tale approccio introducendo il meccanismo di attenzione, con il quale il modello può assegnare pesi differenziati a diverse parti dell'input in base alla loro rilevanza per la comprensione del contesto. Ciò significa dare maggiore attenzione alle parole più significative in una frase o in un testo, ignorando quelle meno rilevanti. Inoltre, il Transformer utilizza la multi-head attention, che consente al modello di calcolare diverse rappresentazioni di attenzione simultaneamente, ciascuna focalizzata su diverse parti dell'input, permettendo di catturare relazioni complesse tra le parole e le dipendenze a lungo raggio all'interno della sequenza, poiché può considerare simultaneamente le connessioni tra tutte le parole anziché trattarle in modo sequenziale. La fase Pre-trained indica che questi modelli vengono addestrati su grandi quantità di testo naturale prima di essere utilizzati per compiti specifici; l'addestramento prevede l'esposizione del modello a un vasto corpus di testo, quali libri, articoli di giornale, pagine web e altro ancora, in modo che possa apprendere la struttura e i modelli linguistici presenti nel linguaggio umano. Tale processo di apprendimento avviene attraverso l'uso di tecniche di apprendimento automatico, quali l'apprendimento auto-supervisionato, tecnica di apprendimento automatico in cui un modello cerca di predire parti mancanti o nascoste dei suoi stessi dati di input, senza l'ausilio di etichette o annotazioni esterne. Il modello impara quindi a capire il contesto delle parole circostanti e ad anticipare quale parola dovrebbe essere presente per mantenere la coerenza e il significato della frase, acquisendo una comprensione profonda della struttura e dei modelli linguistici presenti nei testi senza la necessità di annotazioni manuali. Le rappresentazioni linguistiche apprese durante questa fase di pre-addestramento possono quindi essere utilizzate in una vasta gamma di compiti di elaborazione del linguaggio naturale, che possono includere la traduzione automatica, l'analisi del sentiment, la generazione di testo, la risposta alle domande e altro ancora, rendendo i modelli linguistici pre-addestrati quali i GPT estremamente versatili ed efficaci. Una volta completata la fase di pre-addestramento, il modello può essere ulteriormente adattato o "sintonizzato" su compiti specifici tramite un processo noto come fine-tuning. Durante questa fase, il modello viene esposto a un insieme di dati annotati per il compito specifico che si desidera eseguire, come ad esempio domande e risposte o classificazione del testo. Questo consente al modello di adattare le sue rappresentazioni linguistiche generali per risolvere in modo più specifico il compito target. La fase Generative indica la capacità del modello di produrre nuovo testo in modo autonomo, coerente e contestualmente accurato, basandosi sulle conoscenze acquisite durante la fase di addestramento. La capacità generativa dei modelli come i GPT è stata dimostrata in diversi contesti, quali ad esempio la generazione di articoli su una vasta gamma di argomenti, componendo testi narrativi o rispondendo a domande poste dall'utente. Inoltre, i GPT possono essere utilizzati per completare testi incompleti o per generare suggerimenti di testo in applicazioni di scrittura assistita. In pratica, la generazione di testo da parte dei modelli come i GPT avviene attraverso l'alimentazione di un prompt iniziale, che il modello utilizza come input per generare un'estensione continua del testo. Il modello produce parole una alla volta, prendendo in considerazione il contesto precedente e utilizzando le sue conoscenze linguistiche per generare il testo successivo. Ad esempio, se il prompt fosse Once upon a time, il modello potrebbe continuare a generare una narrazione seguendo questo schema, come "Once upon a time, in a faraway kingdom, there lived a brave knight...". In questo caso, "Once upon a time" è il prompt iniziale che innesca la generazione della storia da parte del modello, elemento cruciale per controllare il processo di generazione di testo, che può influenzarne il tipo e il tono.

Dall'introduzione nel 2018 di GPT-1, caratterizzato da 117 milioni di parametri, quest'ultimi riferiti ai pesi delle connessioni neurali all'interno del modello di rete, OpenAI ha costantemente implementato i confini della capacità linguistica delle sue creazioni. Nel 2019, GPT-2 ha portato il numero di parametri a 1,5 miliardi, seguito da GPT-3 nel 2020, 175 miliardi di parametri, modello che ha dimostrato una capacità sorprendente di generare testo estremamente coerente e complesso, quasi indistinguibile da quello scritto da esseri umani. Da ultimo, nel 2023, è stato presentato GPT-4, con 4 trilioni di parametri, versione che ha continuato la tendenza all'aumento delle dimensioni del modello, consentendo una maggiore complessità e precisione nella generazione di testo. Oltre a dimensioni più grandi, GPT-4 è stato anche migliorato per ridurre la probabilità di generare output offensivi o pericolosi e aumentare la sua accuratezza nell'interpretare le intenzioni dell'utente.[4]

ChatGPT: la nuova frontiera dell'interazione uomo-macchina

[Torna su]

Il rapido avanzamento dell'IA e dell'elaborazione del linguaggio naturale ha portato allo sviluppo di modelli linguistici sempre più sofisticati e versatili. Tra questi, ChatGPT, chatbot alimentato da IA, sviluppato da OpenAI e lanciato il 30 novembre 2022: basato sui LLMs, consente agli utenti di raffinare e guidare una conversazione verso una lunghezza desiderata, un formato, uno stile, un livello di dettaglio e una lingua specifici. ChatGPT si basa sull'architettura Transformer, che funge da fondamento per il suo funzionamento, e deriva dalla versione modificata del modello GPT-3, nota come GPT-3.5, una versione più piccola di GPT-3, con 6,7 miliardi di parametri rispetto ai 175 miliardi di parametri di GPT-3. Nonostante abbia meno parametri, si comporta comunque molto bene su una vasta gamma di compiti di elaborazione del linguaggio naturale, inclusa la comprensione del linguaggio, la generazione di testo e la traduzione automatica. L'idea alla base del Transformer è utilizzare l'auto attenzione per codificare la sequenza di input e produrre una sequenza di rappresentazioni nascoste. L'auto attenzione consente al modello di prestare attenzione a diverse parti della sequenza di input a diversi livelli di astrazione, il che aiuta a catturare dipendenze a lungo raggio e relazioni tra diverse parti della sequenza. Nel caso di GPT-3.5, il modello utilizza una pila di 13 blocchi Transformer, ciascuno con 12 attention heads e 768 hidden units. Le attention heads sono meccanismi che permettono al modello di concentrarsi su parti specifiche della sequenza di input durante il processo di codifica delle informazioni. Ognuna è responsabile di apprendere una diversa combinazione di relazioni tra le parole nella sequenza di input, consentendo di calcolare l'importanza relativa di ogni parola rispetto alle altre nella sequenza, focalizzandosi su quelle parti della sequenza che sono più rilevanti per la specifica operazione in corso. Le hidden units, all'interno di una rete neurale, sono parte dei layer nascosti della rete e svolgono un ruolo fondamentale nell'elaborazione delle informazioni. Ognuna è associata a un insieme di pesi e bias che vengono aggiornati durante il processo di addestramento della rete e che determinano come le informazioni fluiscono attraverso la rete e vengono trasformate prima di essere passate al layer successivo. Ogni layer della rete neurale è composto da un insieme di unità o neuroni, e svolge una specifica operazione di trasformazione sui dati di input. L'input del modello è una sequenza di tokens, che possono essere parole, sottoinsiemi di parole (come le subwords) o simboli speciali che indicano inizio e fine della sequenza, che vengono prima incorporati in uno spazio vettoriale continuo utilizzando uno strato di incorporamento. I token incorporati vengono quindi alimentati nel primo blocco Transformer, che applica l'auto attenzione e produce una sequenza di rappresentazioni nascoste. Le rappresentazioni nascoste vengono quindi passate attraverso i restanti 12 blocchi Transformer, ciascuno dei quali applica auto attenzione e strati di feedforward, questi ultimi componenti di una rete neurale che applicano una trasformazione lineare seguita da una funzione di attivazione non lineare, al fine di produrre un'uscita. L'output dell'ultimo blocco Transformer è una sequenza di rappresentazioni nascoste, che vengono decodificate in una sequenza di output utilizzando uno strato di proiezione lineare e una funzione di attivazione softmax, utilizzata per produrre una distribuzione di probabilità su un vocabolario di parole, consentendo al modello di generare o selezionare la parola successiva nella sequenza di output in modo probabilistico. Questo significa che ogni posizione nella sequenza di output è associata a un vettore di probabilità, in cui ogni elemento rappresenta la probabilità che una determinata parola del vocabolario sia la parola successiva nella sequenza generata dal modello. In sostanza, lo strato di proiezione lineare aiuta a tradurre le complesse rappresentazioni nascoste prodotte dal Transformer in una forma più comprensibile e interpretabile, che può essere utilizzata per generare sequenze di output significative e coerenti nel contesto della modellazione del linguaggio. Applicazione pratica dell'architettura del Transformer utilizzata in GPT-3.5, ChatGPT, come già sottolineato, è un modello avanzato e versatile di elaborazione del linguaggio naturale adatto a una vasta gamma di applicazioni. La sua comprensione contestuale, le capacità di generazione del linguaggio, l'adattabilità alle attività, la competenza multilingue, la scalabilità, l'apprendimento zero-shot e few-shot e il potenziale di raffinamento contribuiscono al suo successo nella rivoluzione delle interazioni tra uomo e macchina. ChatGPT è stato addestrato su un ampio corpus di dati testuali e adattato per una specifica attività di generazione di risposte conversazionali, il che gli consente di generare risposte simili a quelle umane alle richieste degli utenti. Rispetto ai modelli precedenti, vanta diversi miglioramenti e innovazioni chiave, tra cui: comprensione del contesto potenziato, laddove può comprendere e rispondere meglio a input complessi e sfumati, rendendolo più efficace nella generazione di testo accurato e pertinente; riduzione dei pregiudizi: pur non ancora completamente privo di pregiudizi, ChatGPT beneficia degli sforzi in corso per minimizzare i pregiudizi nei dati di addestramento, portando a output più obiettivi e equilibrati; capacità di raffinamento: ChatGPT può essere raffinato per specifici compiti e applicazioni, consentendo di adattarlo alle esigenze uniche dei ricercatori in varie discipline scientifiche.[5]

In tale contesto, l'ingegneria dei prompt riveste un ruolo cruciale nel migliorare l'esperienza dell'utente e nel garantire una comunicazione efficace durante l'interazione con modelli di intelligenza artificiale, come ChatGPT. Questa pratica consiste nell'impostare in modo strategico i prompt o le istruzioni iniziali fornite al modello al fine di influenzare e guidare le risposte da esso generate: chiarezza e specificità dei prompt: i prompt devono essere formulati in modo chiaro e specifico per orientare il modello verso il tipo di risposta richiesta. Orientamento verso il contesto: i prompt possono essere progettati per fornire al modello informazioni contestuali o vincoli che guidano la generazione della risposta. Controllo del tono e dello stile: ad esempio, fornendo un prompt formale o informale, si può indirizzare il modello verso una risposta corrispondente al tono desiderato. Correzione e guida delle risposte: se il modello genera una risposta non desiderata o errata, è possibile correggerlo o guidarlo fornendo prompt successivi che chiariscano o ribadiscano le informazioni richieste.

Conclusioni

[Torna su]

L'intelligenza artificiale conversazionale, come ChatGPT, ha compiuto progressi significativi negli ultimi anni, ma diverse sfide e limitazioni devono essere affrontate. Tra queste, il mantenimento del contesto: i modelli di intelligenza artificiale conversazionale spesso faticano a mantenere il contesto di una conversazione, specialmente quando si estende su più turni. Nel contesto di intelligenza artificiale conversazionale, il mantenimento del contesto su più turni si riferisce alla capacità del sistema di comprendere e ricordare i dettagli e il significato delle interazioni precedenti mentre la conversazione continua, al fine di fornire risposte più coerenti e pertinenti. La gestione dell'ambiguità: i modelli di intelligenza artificiale possono fornire risposte insoddisfacenti o non pertinenti quando si trovano di fronte a domande ambigue. La personalizzazione, adattando le risposte in base alle preferenze individuali, agli interessi e agli stili di conversazione. Il Ragionamento del senso comune, riferito alla capacità di un sistema di comprendere concetti, situazioni o problemi in modo simile a come lo farebbe un essere umano, basandosi su conoscenze e intuizioni generali che sono considerate "comuni" o "ovvie" per la maggior parte delle persone. L'intelligenza emotiva, ovvero la capacità di un sistema di comprendere, interpretare e rispondere alle emozioni umane in modo efficace e appropriato durante una conversazione o un'interazione. Le considerazioni etiche, per ridurre al minimo il rischio di generare contenuti offensivi, tendenziosi o inappropriati. La robustezza e la sicurezza: i modelli di intelligenza artificiale conversazionale possono essere vulnerabili agli attacchi avversari o agli input malevoli. Le Interazioni in tempo reale e la multi-modalità: integrare il modello con altre modalità, come il riconoscimento vocale o immagini, può contribuire a creare esperienze conversazionali più interattive e dinamiche.

Come con qualsiasi tecnologia potente, vi sono una serie di considerazioni etiche che devono essere prese in considerazione. Alcune delle principali includono il bias nei dati di addestramento, la propagazione di informazioni errate, le preoccupazioni sulla privacy, gli effetti sull'occupazione, l'abuso per scopi maliziosi, il possibile rafforzamento di stereotipi sociali, la responsabilità dei creatori e degli utenti, l'importanza della regolamentazione governativa e l'integrazione in sistemi autonomi, senza un controllo diretto o costante da parte degli esseri umani. È fondamentale per chi utilizza o sviluppa tali tecnologie comprendere e affrontare tali questioni, ad esempio attraverso investimenti in formazione, politiche di supporto per i lavoratori a rischio di disoccupazione (automatizzazione delle mansioni, ristrutturazione del mercato del lavoro, impatto sulla formazione e sull'istruzione, disuguaglianze socioeconomiche) e collaborazione con le autorità per garantire un utilizzo responsabile e nell'interesse pubblico.


dott.ssa Luisa Claudia Tessore

Note bibliografiche

[1] Hsiao-Ying, L. (2023) Standing on the Shoulders of AI Giants. IEEE Computer Society

[2] Naveed, H. et al. (2024) A Comprehensive Overview of Large Language Models https://arxiv.org/pdf

[3] Vaswani, A. et al. (2017) Attention is all you need Adv. Neural Inf. Process. Syst., 30

[4] Yenduri, G. et al. (2024) GPT (Generative Pre-Trained Transformer)— A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions. Survey - Volume 12 IEEE Access

[5] Roumeliotis, K.I.& Tselikas, N.D. (2023) ChatGPT and Open-AI Models: A Preliminary Review. Future Internet 15, 192.


Tutte le notizie