#MID043 | You speak italian?

"Modello Italia" è il primo LLM open source addestrato su un dataset per il 90% composto da informazioni in lingua italiana.

giu 15, 2024

Ne avevamo già parlato qualche mese fa. Da qualche giorno, è finalmente disponibile per il download (previa registrazione) il primo Large Language Model open source addestrato su un dataset per il 90% composto da informazioni in lingua italiana, tra cui l’archivio storico di articoli di stampa di Editoriale Nazionale, società del gruppo Monrif (Quotidiano Nazionale, Il Resto del Carlino, La Nazione e Il Giorno).

Il “Modello Italia”, questo è il “patriottico” e, forse, anche un po’ “campanilistico” nome commerciale scelto per il sistema di Intelligenza Artificiale italiano, è stato sviluppato da iGenius ed addestrato sul supercomputer Leonardo, che, come sappiamo, è gestito da Cineca. Più in particolare, Italia 9B è un Foundational LLM con un’architettura Transformer da 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token.

La bellezza della lingua italiana

Pur essendo stato lanciato e promosso facendo leva, in particolare, sul diffuso patriottismo e velato nazionalismo della maggior parte della popolazione italiana, arrivando addirittura a parlare, forse impropriamente, di “Rinascimento Digitale”, ciò che, a mio avviso, potrebbe davvero fare la differenza, rendendolo, di fatto, uno strumento più vantaggioso ed interessante rispetto a quelli degli altri competitor internazionali, è soprattutto la sua implicita propensione a valorizzare la bellezza e complessità della lingua italiana, le cui sfumature e sfaccettature hanno sempre rappresentato un inestimabile valore aggiunto da sfruttare e preservare.

Insomma, in virtù della sua intrinseca capacità di essere un modello a singola specializzazione linguistica, “Modello Italia” potrebbe rivelarsi essenziale per applicazioni che richiedono una padronanza avanzata della lingua italiana.

Sebbene la soluzione dovrà essere valutata sul campo, a detta dello stesso CEO di iGenius, Uljan Sharka, per costruire il dataset di addestramento del modello e, quindi, per garantire l’integrità etica dei contenuti generati, sono stati sviluppati specifici filtri di sicurezza in grado di rimuovere, grazie anche all’adozione di avanzatissime tecniche di Data Cleaning, quelli sensibili, espliciti oppure più esposti al pregiudizio, limitando, tra l’altro, anche la generazione di allucinazioni o, più semplicemente, di contenuti incoerenti rispetto al contesto.

Condividi Make It Digital!

Contro lo strapotere dei grandi gruppi internazionali

Pur essendo partiti dall’Italia, il vero obiettivo di Uljan Sharka è quello di trasformare “Modello Italia” in un “modello componibile multilingue”, creando ulteriori LLM verticali, realizzati con gli stessi presupposti utilizzati per quello italiano, in grado di competere con i grandi gruppi internazionali. Queste sono state le sue esatte parole, rilasciate in una recente intervista pubblicata su Wired: “Se si continuassero a usare sempre e solo i 4 modelli proposti dalle solite 4 società, tutta la conoscenza mondiale resterebbe nelle loro mani”.

L’approccio mi sembra indubbiamente quello giusto, sebbene le cose, il più delle volte, si riescano veramente a cambiare solo competendo ad armi pari. Lo strapotere dei grandi gruppi internazionali potrà essere scalfito soltanto se si creeranno adeguati ecosistemi relazionali in cui tutti i diversi soggetti coinvolti, dalle Istituzioni fino agli utenti finali, possano evolvere e prosperare collettivamente. Vedremo.

Buon Weekend!

Discussione su questo Post

Assolutamente, procediamo.