商店:在使用者騎自行車返回 Camden 的途中,Project Astra 能夠根據位置查詢並告知沿途的超市,包括 Camden Road 上的 Sainsbury’s、Chalk Farm Road 上的 Morrison’s 和 Camden High Street 上的 MS Simply Food。
這些例子都展現了 Project Astra 利用視覺資訊辨識環境中各種物體的能力,這呼應了我們之前討論的「通用 AI 助理願景」中 多模態感知與理解 的關鍵面向。它不僅能辨識靜態的物品(如雕塑、洗衣標籤),也能夠辨識地理位置上的實體(如公園、地標、商店),並提供與這些物品相關的資訊。這種能力是實現一個能夠理解和回應真實世界複雜情境的通用 AI 助理的基礎。
Google 在 YouTube 官方頻道上發佈了影片「Project Astra」描述使用者與 AI 語音助理的對話內容。
影片展示了一種未來 AI 助理的願景,這個助理能夠透過語音來理解指令、辨識影像資訊,並與使用者進行即時互動。
AI 助理可以回答有關於物體的名稱、聲音來源、創意寫作、程式碼功能以及地理位置等資訊。
它還能記住使用者放置物品的位置、提供系統優化改善建議,甚至激發創意聯想。
影片透過多種測試情境,突顯了 AI 助理在理解、記憶和推理方面的潛力。
Google 對「通用 AI 助理願景」的幾個重要方向, Project Astra 的目標可以說是開發一個能夠理解和回應真實世界複雜情境的 AI 助理,而不僅僅是處理單一模式的輸入或執行預設指令。
以下是影片對「通用 AI 助理願景」看法:
來自 Google NotebookLM AI 對影片的分析內容:
多模態感知與理解:
強調了 AI 助理處理多種輸入模式的能力。Project Astra 可以理解視覺資訊(例如,辨識洗衣標籤上的符號、識別雕塑、觀察周遭環境、辨識物品如揚聲器和紅色蘋果)、聽覺資訊(偵測並識別發聲的物體)、以及文字資訊(例如,讀取電子郵件中的門鎖密碼、分析推薦列表、理解書籍清單以判斷閱讀口味、分析程式碼)。
Project Astra 能夠記住先前互動中的資訊,例如門鎖密碼和使用者眼鏡的位置。此外,它還可以進行簡單的推理,例如根據洗衣標籤上的說明判斷洗衣機的設定、根據書籍清單推斷使用者的閱讀偏好、以及根據程式碼的功能進行解釋。這些記憶和推理能力使得 AI 助理能夠進行更連貫和有意義的對話,並提供更個性化的幫助。