mastodon.uno è uno dei tanti server Mastodon indipendenti che puoi usare per partecipare al fediverso.
Mastodon.Uno è la principale comunità mastodon italiana. Con 77.000 iscritti è il più grande nodo Mastodon italiano: anima ambientalista a supporto della privacy e del mondo Open Source.

Statistiche del server:

6,2K
utenti attivi

#multimodalità

0 post0 partecipanti0 post oggi

🧠 La è un elemento che ormai è parte integrante dell'ultima generazione di modelli generativi.
💡 In questo esempio uso 1.5 Pro su Studio, con un video come elemento di input. 
👉 Il modello risponde a domande generali e specifiche, non solo riguardanti il parlato, ma anche su elementi visivi. 

___ 

✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: bit.ly/newsletter-alessiopomar 

🧠 I video di Figure 01 hanno fatto il giro del mondo, con grande stupore. 
👉 Ma se ci pensiamo, la  dei moderni modelli che usiamo ormai regolarmente è a livelli degni di nota.

👇👇👇
linkedin.com/posts/alessiopoma

   

___

✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: bit.ly/newsletter-alessiopomar 

Discussione continua

🧠 La è la direzione verso la quale tutte le interfacce si stanno dirigendo. Di fatto consente esperienze non attuabili in altre modalità.

___

✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: bit.ly/newsletter-alessiopomar 

Alessio PomaroAlessio Pomaro, Head of AI, Docente, Speaker, AutoreAlessio Pomaro, Head of AI, Docente, Speaker. Ingegnere, LinkedIn Top Voice Italy e autore di Brand Voice (FrancoAngeli Editore) e Voice Technology (Dario Flaccovio Editore).

🧠 In che direzione sta andando lo sviluppo di ? Altman lo racconta a Gate.
🦾 Non ci sono grandi sorprese.. 
👉 (inclusi input audio e video), 
👉 miglioramento del "ragionamento" e dell'affidabilità, 
👉 interazione con dati degli utenti (e-mail, calendari, ecc.) per personalizzare l'esperienza. 

💡 in arrivo?

linkedin.com/posts/alessiopoma

🧠 ha pubblicato una demo di , il modello dedicato alla generazione di audio.
👉 Il sistema produce gli output partendo da una combinazione di input vocali e testuali. 
🎶 Siamo arrivando a livelli altissimi anche nel mondo audio.

___

✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: bit.ly/newsletter-alessiopomar 

audiobox.metademolab.com/

Alessio PomaroAlessio Pomaro, Head of AI, Docente, Speaker, AutoreAlessio Pomaro, Head of AI, Docente, Speaker. Ingegnere, LinkedIn Top Voice Italy e autore di Brand Voice (FrancoAngeli Editore) e Voice Technology (Dario Flaccovio Editore).

🧠 Anche festeggia il primo anno, con novità interessanti.

👉 Turbo

👉 aggiornato

👉 , con Vision di GPT-4 integrato alla ricerca di

👉 Code Interpreter 

👉 Deep Search per Bing, una funzionalità che espande le ricerche per fornire risultati più pertinenti

🔗 blogs.microsoft.com/blog/2023/

🧠 Stability AI presenta le nuove funzionalità per Stable Audio.
🎧 Le principali sono la possibilità di usare un audio come parte dell'input e di scaricare la versione video del brano generato.
💡 Inoltre ora è possibile scegliere il numero di step di generazione, il numero di risultati e il "seed" per dare un codice di riferimento all'output.
🎶 Anche i modelli generativi per l' accelerano in modo importante, e tutto si muove verso la .

👁️ è un nuovo modello multimodale in grado di interagire elaborando testo e immagini.
🧠 Le performance sono sorprendenti, anche nel confronto con Vision.
💡 Un dettaglio: si tratta di un modello open source, che può funzionare anche in locale.
🧐 Praticamente ieri OpenAI ha lanciato Vision, e oggi esistono già versioni a disposizione di tutti con performance paragonabili. Incredibile.

🔗 llava-vl.github.io/

#AI#LLM#VLM
Discussione continua

💡 La è sempre più concreta. Quello che manca ancora è il mix degli output, ad esempio per generare testo e immagini, usare i plugin e la navigazione online dando come input un di testo e immagini.

👉 Da notare che in una delle immagini si vede anche la nuova interfaccia di ChatGPT per richiedere feedback sull'output.

#AI#LLM#GPT4

🧠 No, non scherza. Non è sempre perfetto, ma l'aderenza ai è degna di nota. 

👉 Altro dettaglio: il prompt viene riscritto dal sistema per essere più performante e per creare le 4 varianti.

💡 Nelle immagini si vede anche l'output in cui ho chiesto a di descrivere l'immagine.

🦾 È solo un test, ma fa capire come tutto sia già nella direzione dell'interazione multimodale.

🖼️ Modelli come , , ma anche riescono già ad elaborare testo e immagini in un unico contesto, ma fa uno step ulteriore con RT-2, aggiungendo a tutto questo le azioni di un robot.
🦾 Si tratta di modelli definiti (Vision-Language-Action). Come e prevedono i token successivi di un input grazie a un training molto ampio, questi sistemi prevedono le azioni che un robot dovrà eseguire.

linkedin.com/posts/alessiopoma

www.linkedin.comAlessio Pomaro on LinkedIn: #ai #llm #chatgpt #clip #kosmos #gpt4 #google #deepmind #vla #llm #vlm…💡 Al Search Marketing Connect ci siamo lasciati con questa frase: "il futuro delle interazioni uomo-macchina sarà multimodale? Sì, perché vogliamo dare…

✨ In l'ultimo miglio del software potrà essere generato "on demand"? 
🧠 Qui si vede come da un archivio di immagini si può passare a uno slideshow con musica di sottofondo attraverso di .
💡 Nella chat che condivido sotto si può vedere tutta l'interazione e il che viene generato dal . Decompressione dello ZIP, "ragionamenti" dell'algoritmo, generazione del video con le dissolvenze, integrazione del file MP3.