什麼是機器人的核心?電腦視覺和人工智慧
編者註:insight.tech 支持終結種族主義、不平等與社會不正義行為。我們不容忍我們贊助商的產品用於侵犯人權,包括但不限於政府濫用視覺化技術。insight.tech 上所提到的產品、技術和解決方案皆假定為以負責且合乎道德的方式使用人工智慧以及電腦視覺工具、技術和方法。
長久以來,機器人一直是科幻小說的主角,在 1956 年的電影《禁忌星球》中初次登場的機器人羅比有著鮮明的個性和冷面幽默的形象;而美國電視影集《太空迷航》裡的機器人 Model B9 也有著超越人類的力量與音樂才華。
當然,在這個星球上(更遑論在最遙遠的太空裡),我們還要努力很久才能研發出具有獨特個性、能保護與陪伴人類的全自動機器人。然而,我們已能看到智慧型機器人應用在日常生活的各個面向,包括:
- 接待客戶、回答問題以及引導零售買家
- 提供醫院設施資訊和持續照顧病患的指引
- 接待訪客、引導他們前往接待處,以及將行李搬至飯店客房
- 接受付款和收集金融中心的帳號資訊
- 在倉庫四周搬運貨物、擔任下班後的警衛工作
智慧型服務機器人剖析
影片 1 展示 New Era AI Robotic Inc 的智慧型服務與運送機器人,此系統採用同步定位與環境地圖建立 (SLAM) 演算法、語音及人臉辨識軟體和完整的感應器套件來執行上述的工作。
影片 1. 在多種產業中,智慧型服務與運送機器人已躍升助理角色。(資料來源:New Era AI Robotic)
這些功能是在兩個單獨的子系統上執行:一個是用於導覽與控制,另一個是用於驅動使用者介面。
核心能力:電腦視覺和深度學習
New Era 的內部 SLAM 技術是其機器人的關鍵核心,可讓 40 至 50 公斤重的機器人安全地導覽環境。可以確定的是,以控制為導向的 SLAM 軟體是以多個感應器的輸入資料來運作,提供機器人 2D/3D 的環境視野來進行物體的偵測、辨識和迴避。
New Era AI 的 SLAM 軟體主工程師 Allen Tsai 表示:「自動駕駛汽車有非常多的感應器,同樣地,室內機器人無法只仰賴一個感應器,在現實環境中,像購物中心那樣人山人海的環境,沒有什麼是靜止不動的。」
起初,系統運用 2D 平面 LiDAR 感應器陣列,儘管 LiDAR 符合成本效益且可靠實用,但經證實它會限制機器人在動態的三次元空間進行導覽工作。透過加入 Intel® 實感™ 攝影機,New Era 執行立體化視覺功能,以更清楚準確地感知角度、邊角等等 (圖 1)。
Tsai 繼續表示:「有了 Intel 實感技術,我們便可運用傳統的電腦視覺演算法來強化圖形與識別功能。然後,將其與 LiDAR 感應器結合,所以我們並非只依賴一個感應器。」
以四核心 Intel® Core™ i5 為基礎的 Linux 電腦會處理 LiDAR 陣列和實感攝影機所傳送的感應器資料,接著將 SLAM 演算法套用到這些輸入中。這些演算法會對應到機器人所互動的實體空間,準確度誤差在 5 公分以內。軟體接著會覆寫可識別特徵的描述元,如房間、走廊、物體等。SLAM 演算法的記憶體效能極佳,可在任何給定的時間內將上千張地圖儲存在機器人的硬碟中。因此,每個機器人只需要 4 GB 的 DDR4 記憶體。
人機互動與人臉辨識和人工智慧
第二個運算子系統會執行所有與人類互動所需的應用程式,包括人臉辨識、語音偵測、聊天機器人和觸控式螢幕使用者介面等。它以 Windows 電腦為基礎,採用四核心 Intel® Pentium® N4200 CPU 並執行使用 Intel® OpenVINO™ 工具集開發的卷積神經網路 (CNN) 演算法 (影片 2)。
影片 2. 使用 Intel® OpenVINO™ 工具集演算法來偵測人臉與情緒的機器人。(資料來源:Omar Lam Demonstration)
OpenVINO 協助 New Era AI 工程師最佳化在 Pentium 處理器上執行的演算法,該處理內含整合式 Intel® HD 顯示晶片 505 GPU。這麼做能為實感攝影機所擷取的圖形提供足夠的輸送量,以進行即時處理。它也會開啟一系列重要的臉部辨識功能。
最佳化的 OpenVINO 演算法不僅能幫助機器人偵測人類行為,還可以用來分析人類的年齡、性別和情緒反應。有了這項以匿名中繼資料收集的資訊,機器人操作員可判斷哪些族群最有可能與機器人互動、在哪裡進行互動以及互動時間長短。舉例來說,在零售商店或飯店業的環境下,這些分析可用來提升銷售或改善客戶服務品質。
此外,多虧了 Windows 電腦提供的本機連線能力,新的演算法、聊天機器人和其他軟體可以隨時進行更新。
更多逼真的機器人
New Era AI Robotic 的工程師持續進行技術整合,他們機器人平台的互動能力也因此如人類互動一般更加自然。
舉例來說,新一代的設計可能會運用 Intel® Movidius™ 視覺處理單元 (VPU) 和/或 Intel® 類神經電腦棒,同時結合更進階的 OpenVINO 演算法。這種技術堆疊可能會對平台產生重大影響,支援同步進行多人交流、本地化自然語言處理 (NLP),甚至是改善圖形的輸送量及解析度,以獲得更精細的對應和導覽能力。
儘管智慧型機器人還不能成為我們的星際夥伴,但它們的發展在短短幾年內取得無與倫比的進步。此外,它們也讓人類一窺未來幾十年人/機共存的社會面貌。