Modelli come #CLIP, #Kosmos, ma anche #GPT4 riescono già ad elaborare testo e immagini in un unico contesto, ma #Google #Deepmind fa uno step ulteriore con RT-2, aggiungendo a tutto questo le azioni di un robot.
Si tratta di modelli definiti #VLA (Vision-Language-Action). Come #LLM e #VLM prevedono i token successivi di un input grazie a un training molto ampio, questi sistemi prevedono le azioni che un robot dovrà eseguire.
https://www.linkedin.com/posts/alessiopomaro_ai-llm-chatgpt-activity-7098187603341930496-70Se