康奈爾大學(xué)的研究人員發(fā)明了一種耳機,可以通過觀察臉頰的輪廓來連續(xù)跟蹤完整的面部表情,然后可以將表情轉(zhuǎn)換成表情符號或無聲的語音命令。
“這種設(shè)備比任何現(xiàn)有的可佩戴在耳朵上的跟蹤面部表情的技術(shù)更簡單、更不顯眼,也更有能力,”康奈爾大學(xué)科幻實驗室(Cornell's SciFi Lab)主任張成表示,他也是這項研究成果的作者之一。
借助這款名為C-Face的耳掛設(shè)備,用戶無需面對屏幕,就可以在線向他人發(fā)送消息。
張成表示,“在以前旨在識別面部表情的可穿戴技術(shù)中,大多數(shù)解決方案都需要在臉上安裝傳感器......即使安裝許多儀器,其識別能力也很有限”。
該設(shè)備由兩個微型RGB相機(用于捕捉紅色、綠色和波段光)組成,位于耳朵下方,帶有耳機或耳塞。攝像機記錄面部肌肉運動引起的面部輪廓變化。


兩款原型設(shè)備,可以清楚地看到兩個攝像頭
(圖源:Cheng Zhang, Cornell University)
研究人員表示,面部輪廓對面部表情的信息量很大,當我們做出面部表情時,面部肌肉會伸展和收縮,它們推拉皮膚,影響附近面部肌肉的張力。這種效果會導(dǎo)致臉頰輪廓(輪廓)從耳朵的角度發(fā)生變化。
一旦圖像被捕獲,可以使用計算機視覺和深度學(xué)習(xí)模型對其進行重建。該模型將臉頰圖像轉(zhuǎn)換成42個面部特征點或標志,代表嘴、眼睛和眉毛的形狀和位置,這些特征受表情變化的影響最大。
這些由42個特征點所表達的重構(gòu)面部表情也可以被翻譯成8個表情符號,包括“自然”、“憤怒”和“親吻”。還可以作為控制音樂設(shè)備的命令,通過表情變化就能實現(xiàn)“播放”、“下一首”和“音量加”等功能。
由于疫情限制,研究人員只能在九名參與者身上測試該設(shè)備,其中還包括兩名研究作者。他們將這款耳機的性能與最先進的計算機視覺庫進行了比較,該庫從正面攝像頭捕獲的全臉圖像中提取面部標志,最后發(fā)現(xiàn)平均誤差小于0.8毫米。
實驗結(jié)果顯示,表情識別的準確率超過88%,無聲語音的準確率接近85%。
這一技術(shù)對于某些場景,比如在圖書館或其他共享工作空間中很是受用,不過研究人員也表示,這樣的話使用者就不能看到對方的面部表情。
不過,這一技術(shù)目前還存在一些難題,兩個攝像機的功耗過高,對這一設(shè)備的續(xù)航帶來了較大影響,研究人員表示下一步將考法功耗更低的傳感技術(shù)。