Apple presenta “Apple Intelligence”, una svolta per l’accessibilità?

Nell’attesissimo keynote della WWDC 2024, Apple ha svelato la sua nuova piattaforma di intelligenza artificiale, chiamata Apple Intelligence. Non parliamo di un singolo modello AI, ma di un insieme di strumenti e funzioni che sfruttano il machine learning per migliorare l’esperienza utente su iOS 18, iPadOS 18 e macOS 15 Sequoia. Se il pubblico generale è in effervescenza per le potenzialità della nuova tecnologia di casa Apple, per le persone con disabilità visive come me, Apple Intelligence rappresenta un enorme balzo in avanti per l’accessibilità digitale.

Integrazione Nativa dell’AI

Una delle caratteristiche sicuramente più succulente di Apple Intelligence è la sua profonda integrazione a livello di sistema e nelle app native come Mail, Note, Safari etc. Significa che funzioni basate sull’AI, come la generazione di testi, la risposta alle domande e il riassunto dei contenuti, solo per citarne alcune, saranno disponibili in modo nativo e immediato su iPhone, iPad e Mac. Non servirà installare app di terze parti o ricorrere a servizi cloud: l’intelligenza artificiale sarà sempre a portata di mano(e, spoiler, di voce).

Siri Potenziata

Siri, l’assistente vocale di Apple, riceverà (permettetemi di dirlo, finalmente) un importante aggiornamento grazie ad Apple Intelligence. Sarà in grado di comprendere richieste più complesse in linguaggio naturale e di eseguire azioni contestuali più sofisticate. Per esempio, potremo chiederle di trovare una specifica foto e di estrarne automaticamente dati come testo o numeri. Immaginate di poter dire: “Siri, trova la foto della mia carta d’identità e compila il modulo online con i dati”, e che questo avvenga in pochi secondi, senza dover cercare manualmente l’immagine o dettare lettera per lettera i dettagli. Per chi, come me, fa affidamento sulla sintesi vocale per interagire con i dispositivi, rappresenta un notevole risparmio di tempo e fatica.

Riassunto dei Messaggi

Un’altra funzione di Apple Intelligence che avrà un impatto indubbiamente significativo per le persone non vedenti è la possibilità di ottenere riassunti dei messaggi. Nelle chat di gruppo particolarmente attive, come quelle di lavoro o di amici, è facile accumulare centinaia di messaggi non letti. Quante volte vi sarà capitato? A me tantissime. Invece di dover scorrere ogni singolo messaggio con VoiceOver per capire di cosa si è parlato, potremo chiedere all’AI di fornirci un riepilogo degli argomenti trattati e dei punti chiave. Immaginate di dire: “Riassumi gli ultimi 100 messaggi del gruppo di lavoro”, e di ottenere una sintesi come: “Discussione su nuove deadlines del progetto (35 messaggi), organizzazione meeting settimanale (28 messaggi), aggiornamento sullo stato del budget (22 messaggi), chiacchiere varie non legate al lavoro (15 messaggi)”. Questa interessantissima funzione ci permetterà di cogliere rapidamente il senso delle conversazioni senza doverle rileggere per intero.

Drag and Drop Vocale

Il drag and drop, ossia la possibilità di spostare elementi sullo schermo “afferrandoli” e trascinandoli, è da sempre una bella gatta da pelare per gli utenti non vedenti. Individuare precisamente un oggetto, selezionarlo e rilasciarlo nella posizione desiderata usando solo la sintesi vocale può essere molto complicato o del tutto impossibile in certe situazioni. Apple Intelligence promette di risolvere questo problema consentendo di effettuare il drag and drop tramite comandi vocali. Potremo dire, per esempio: “Sposta il file Relazione.doc dalla cartella Documenti alla cartella Lavori completati”, e l’azione verrà eseguita in modo preciso e istantaneo dall’AI. Questa funzione aprirà nuove possibilità di interazione con il computer e renderà molto più facile gestire file, spostare testo e riorganizzare elementi nelle app.

Descrizione Intelligente delle Immagini

Infine, una delle potenzialità più entusiasmanti di Apple Intelligence per l’accessibilità è la descrizione automatica delle immagini. Grazie all’integrazione con modelli avanzati di computer vision come GPT-4o, il sistema sarà in grado di analizzare a fondo il contenuto di foto, grafici e altri elementi visivi, generando descrizioni dettagliate e semanticamente ricche.

Immaginate come potrebbe rivoluzionare l’esperienza di un utente non vedente sui social network, sui siti web o nelle chat. Invece di sentire solo “potrebbe essere un’immagine contenente persone” quando VoiceOver incontra una foto su Facebook o instagram, potremmo avere descrizioni come: “Fotografia di tre persone sorridenti a un tavolo da picnic in un parco. C’è un uomo con capelli scuri e occhiali da sole, una donna bionda con un vestito rosso e un bambino con una maglietta blu. Sul tavolo ci sono piatti con fette di pizza e bicchieri di aranciata. Sullo sfondo si vedono alberi e altri gruppi di persone sui prati”. Oppure, di fronte a un’immagine sul web, invece di “grafico” potremmo sentire: “Grafico a linee che mostra l’andamento delle vendite mensili da gennaio a dicembre 2023, con valori crescenti da 1000 euro in gennaio fino a un picco di 5500 a novembre”.

Va notato che la descrizione delle immagini non è una novità assoluta: esistono già servizi come BeMyEyes o funzioni come la Image Analysis di Seeing AI che svolgono un compito simile. Però diciamocelo, avere questa funzione integrata in modo nativo, magari proprio in VoiceOver, in ogni app e contesto, senza passare per app di terze parti, sarà un enorme passo avanti. Potremo finalmente accedere a tutti i contenuti visivi con un livello di comprensione vicino a quello di un utente vedente.

Cosa ci aspetta?

Apple Intelligence e il suo entusiasmante potenziale per l’accessibilità sono solo l’ultima tappa di un periodo incredibilmente dinamico per le tecnologie assistive con AI. Negli ultimi mesi abbiamo visto gli occhiali RayBan Stories di Meta, che utilizzano l’IA per descrivere ciò che vedono all’utente, o la rapida evoluzione di strumenti come ChatGPT.

Credo però che non tutti si rendano conto della portata di questi progressi e di quanto velocemente stiano avvenendo. Se rifletto su come la tecnologia ha già cambiato la mia vita di persona con disabilità visiva, da VoiceOver su iPhone già da molti anni a OrCam MyEye, GPT Vision, Meta AI integrato nei Ray-Ban META, e poi penso a come potrebbe essere tra 5 o 10 anni grazie ai passi da gigante nell’intelligenza artificiale, provo un senso di vertigine.

Sono molto curioso e non vedo l’ora di mettere le mani (e la voce) su Apple Intelligence e tutte le sue funzioni di accessibilità. Sarà emozionante ed estremamente interessante vedere come queste innovazioni miglioreranno concretamente la vita di molte persone con disabilità. Il futuro dell’accessibilità digitale non è mai stato così luminoso

Posted in Disabilità visiva & Accessibilità