蘋果 機器人 新突破:賦予機器人“靈動”手勢,和人類一樣有魅力
人與人之間的交流,除了語言,還可以通過手勢、面部表情和身體語言傳遞更多的信息。同樣,機器人在與人類互動時,如果能夠通過合適的手勢和動作來表達情感,互動就會變得更加流暢和自然。
在現階段,機器人雖然能夠執行一些簡單的手勢動作,但這些動作通常是預設的,缺乏靈活性,無法根據不同的社交情境做出合適的反應。
為了讓人形機器人能夠“讀懂”動作,并且做動作時更自然,Apple AIML研究人員Peide Huang在2024年10月的論文中提出了EMOTION框架。近期,該論文獲得了業界的廣泛關注。EMOTION框架通過大型語言模型(LLM)和視覺語言模型(VLM),幫助機器人生成自然且符合情境的手勢動作。
這樣,機器人不僅能夠做出“豎大拇指”或“揮手”等簡單手勢,還能根據不同的交流環境做出動態、富有表現力的手勢,提升與人類的互動體驗。
01 EMOTION框架,讓機器人也能為你豎起“大拇指”點贊
EMOTION利用大型語言模型(LLM)和視覺語言模型(VLM),讓機器人能夠理解并生成符合社交情境的手勢。
根據蘋果發表的論文顯示,EMOTION框架大語言模型主要用于動作生成序列,通過調用OpenAI GPT-4的API進行文本補全來實現;VLM 主要使用的是Vision Transformers技術,幫助機器人從圖像中提取重要信息,比如 3D 關鍵點,如同人眼憑借識別物體形狀來理解其信息,機器人也能借助這種技術解讀圖片中的信息。
這些模型如同機器人的“社交大腦”。當機器人看到某個情景或接收到語言指令時,框架會通過“學習”這些信息,迅速生成合適的動作。
例如,看到某個人正在解題,機器人會自動做出一個“豎大拇指”的手勢,以表達鼓勵和支持。
這種能力的核心,在于機器人能根據社交環境自動“判斷”最合適的動作,而不是依賴于預設的、固定的程序。
(EMOTION框架下機器人的環境判斷)
那么,EMOTION是如何做到這一點的呢?
其實,它的工作流程就像是一個高度智能化的“手勢工廠”。
首先,機器人會通過“上下文學習”,即理解當前情境所傳達的情感和信息。當機器人接收到社交情境的輸入時,比如一個語言指令,或者是機器人對周圍環境的視覺觀察,它會根據這些理解,通過模型生成符合情境的動作序列,就像畫家根據不同的題材創作出各具風格的作品。
這一過程的關鍵在于動態生成。與傳統的預設手勢不同,EMOTION能夠根據每一次交互的獨特情境,生成與之最匹配的手勢。例如,機器人可能會因為不同的情緒表達或任務需求,做出不同的手勢,而不是重復固定的動作。這使得機器人不僅是一個簡單的“執行者”,更像是一個可以與人類進行富有表現力對話的伙伴。
其次,盡管EMOTION本身已能夠生成多樣化的手勢,但人類的反饋仍然是提升互動質量的關鍵。通過引入EMOTION++版本,機器人能夠在與人類的互動中,學習和調整自己的表現。這個過程就像是一個藝術家不斷在作品上進行打磨,直到它達到了更為自然和合適的效果。
(EMOTION框架下,機器人在人類反饋之下的手勢互動)
在這個過程中,人類可以通過反饋告訴機器人哪些動作看起來更自然、哪些手勢更易于理解。例如,假如機器人做出一個“聽”的手勢,但這個手勢的手臂位置不夠直觀,可能讓人誤解為“停止”或“擁抱”,那么通過人類的調整建議,機器人可以優化這個手勢,最終呈現出更加合適的表達。
通過這種人類反饋的持續優化,機器人生成的動作變得更加符合人類的期望和社交習慣,從而提升了機器人在互動中的自然性和可理解度。最終,EMOTION框架不僅使機器人能夠做出正確的手勢,還能使它們在與人類交流時表現得更富有“情感”和“智慧”。
02 手勢魅力大比拼:機器人 VS 人類
為了驗證EMOTION框架的有效性,研究團隊設計了一項用戶研究,目的就是對比EMOTION生成的手勢與人類親自表演的手勢在自然性和理解度上的差異。
這就像是在評選誰的“表演”更具魅力——是機器人還是人類?
在實驗中,參與者觀看了由機器人和人類演示的手勢視頻,然后對這些手勢的自然性和可理解性進行了評分。結果顯示,EMOTION生成的手勢與人類手勢之間并沒有顯著的差異。簡而言之,機器人做的手勢在大多數情況下與人類的動作一樣自然、容易理解。
(用戶對生成的機器人表現性行為的可理解性和自然性的評分,按手勢分類。*和**表示統計學意義,其中*表示p < 0.05,**表示p < 0.01。誤差條表示均值的標準誤差(SE))
(ORACLE:表示由人類示范的手勢,是實驗中的對比組,作為參考。EMOTION:表示由EMOTION框架生成的手勢,基于大型語言模型(LLM)和視覺語言模型(VLM)進行生成的機器人手勢。EMOTION++:表示通過EMOTION框架生成的手勢,但在此基礎上引入了人類反饋(優化版本),以進一步提升手勢的自然性和可理解度。)
然而,盡管EMOTION表現良好,它仍有一些不足,特別是在某些細節的處理上。部分手勢,尤其是更為復雜或細膩的動作,仍需要進一步的優化和調整。
那么,是什么影響了這些手勢的自然性和理解度呢?
第一點,研究表明,手勢的細節在這其中起著至關重要的作用,也就是硬件限制。
比如,當前的機器人硬件可能無法靈活地模擬所有細膩的手勢。例如,手的位置和手指的姿勢直接決定了手勢是否能夠準確傳達意圖。就像你在用手勢傳達“OK”時,如果手指的彎曲程度不對,別人可能會誤解成“歪了的OK”或者完全不理解你的意圖。
(機械手的運動序列)
第二點,動作模式也起到了重要作用。想象一下,如果你讓機器人做一個“停止”的手勢,動作的“流暢性”和“直觀性”決定了觀眾能否立刻理解這個動作。如果動作過于生硬,或是路徑不夠直接,就容易造成誤解。因此,EMOTION需要精細調整手勢的流暢度和準確度,確保每一個動作都能迅速且準確地傳達出正確的信息。
第三點,計算時間是挑戰。生成每個動作序列需要一定的時間,而目前的計算速度可能不能滿足實時互動的需求。為了讓機器人能夠像人類一樣在自然對話中快速做出反應,計算時間需要進一步減少。
(通過多次運行實驗,計算了每次生成手勢所需的平均時間,并考慮了計算中可能的波動(標準差);Initial sequence(初始序列),Single-round HF(單輪人類反饋))
通過實驗統計顯示:
第一,生成初始動作序列的時間普遍較長。例如,對于“Thumbs-up”手勢,初始序列生成的時間為28.7秒,而其他手勢的時間也大致在24秒到33秒之間。這表明,機器人在初次生成動作時,需要較多的計算和處理時間。
第二,在加入人類反饋后,計算時間普遍縮短。例如,“Thumbs-up”手勢在人類反饋后的時間降至24.4秒,相較于初始生成的時間,明顯減少。這意味著,通過人類反饋優化手勢序列后,機器人能夠更高效地調整和改進動作。
面對這些挑戰,未來的解決方向包括優化硬件設計,提升機器人的關節和手指靈活性;同時,加速計算過程,利用更高效的算法和本地化計算,縮短響應時間。
隨著EMOTION框架的進一步發展,機器人不僅能在實驗環境中表現出色,還可以在不同的應用場景中發揮更大的潛力。例如,家庭助手、教育機器人、醫療機器人等,未來都能借助EMOTION框架,進行更加自然和富有表現力的互動。