親身體驗、試用 AI:透過 MindsDB 實現 ML 普及化
機器學習已成為資料管理策略不可或缺的一部分,尤其是現今從 IoT 裝置大量湧入的資料;但要篩選所有資訊可能有一定的難度。另一項挑戰是缺乏現有的機器學習(ML)專家。但是仍有企業致力推廣精密的 ML 模型,讓每個人都能更方便、更有效率地部署。
機器解決方案供應商 MindsDB 正是其中一家公司,而該公司的商業開發副總裁 Erik Bovee 希望鼓勵 ML 社群的成員馬上開始使用。他和我們談起採用 ML 的難題、學著相信模型,以及將機器學習帶入資料,而不是把資料帶入機器學習。
現今機器學習的採用情況如何?
資料的數量和複雜度正在飛速成長,遠超過人類分析。而且機器學習並不容易,因此尋找合適的人選很難。但如果講起市場的現狀,我們可以從幾個有趣的角度切入。首先,技術本身的狀況令人驚艷,光是過去 5 到 10 年間取得的進展就相當亮眼,而先進的機器學習模式可以解決難度極高的實際問題。看看使用 GPT-3 大型語言模型的 OpenAI 達到什麼成就,它現在能產生類似人類的文字。另外還有 Midjourney,只要輸入幾個關鍵字,它就能產生高度精密、令人屏息的藝術傑作。
不過,從實施的角度來看,我認為市場尚未從機器學習中大幅受益。即使是自動駕駛也差不多仍在試驗階段。讓這些功能適應消費者技術要走過一道過程,而過程中必須處理各種問題。其一就是信任。不只是:「這輛自動車可以把我平安送達目的地嗎?」也包括:「你要怎麼說服我相信這套模型精確無誤?我可以把自家企業的命運交給這套預測模型嗎?」因此,我認為這些是讓人們進一步廣泛實施機器學習的重要面向。
不過,有幾個產業的商業推廣進展很快,我認為它們是市場發展方向的良好指標。金融服務就是一個很好的例子,例如大型銀行、投資公司、避險基金。預測和演算法交易等業務優勢,對他們的利潤極其重要,而且他們擁有預算和以良好量化策略為中心的傳統招聘方法。但其中很多是在問題上投入資金,在內部解決 MLOp 的疑問,不一定適用範圍更廣的市場。
我也在工業使用案例中看到許多進展,尤其是在製造業。例如,取得大量高速感應器資料,並進行預測性維護:接下來會發生什麼事?這台伺服器何時會過熱?我認為那些產業、那些市場行為者,顯然正在迅速成熟。
推廣 AI 如何讓企業利害關係人獲得更多信任?
其中許多要從資料著手,即真正瞭解您的資料,確保沒有偏見存在。可解釋的 AI 在過去幾年成為一個很有意思的主題。若要讓企業決策者參與並準確瞭解模型如何運作,最有效的方法之一是提供與事實相反的解釋,也就是以微妙的方式變更資料,以獲得不一樣的決策。這會告訴您真正觸發決策或模型預測的原因,以及哪些欄位或功能不可或缺。
除了技能集以外,機器學習還面臨了哪些挑戰?
我認為技能集這項挑戰會隨著時間消失。具有挑戰性的往往是一些簡單的事,一些在短期執行面進行的簡單操作。資料科學家工具集通常以 Python 為依據,而 Python 可說不太適合資料轉換。資料科學家通常會編寫這種訂製的 Python 程式碼,但資料表變更時,程式碼會怎麼樣?這全都仰賴工程師,隨著時間更新一切內容。那麼,該怎麼執行高效又可重複,並可隨著時間預測成本和經常性開支的任務?這正是我們要努力找到解方的。
我們的其中一個方法理論是讓機器學習更接近資料,並使用 SQL 等現成的工具,這些工具很適合資料轉換和操控資料。何不找個方法直接套用機器學習,比方連接您的資料庫,讓您可以使用現成的工具,而不必建立任何新型基礎結構?我認為這是一大難題。
這對資料科學家有何益處?
我們的目標之一是為資料科學家提供更多的工具組,並節省他們大量清理及操作任務的時間,讓他們真正專注核心機器學習。資料庫的資料白白放著不去使用是暴殄珍物,所以何不將機器學習模型帶進資料庫?而我們也不會浪費資料庫的資源;您只需將 MindsDB 連接到資料庫即可。我們從資料庫中讀取資料,接著將機器學習預測作為表格傳回資料庫,然後可以像您讀取其他任何您擁有的表格一樣讀取這些內容。沒有必要建立一個特別的 Python 應用程式或連接到另一種服務;它已經在那裡供您使用。它大幅減少了定製開發,長遠來看易於維護,您也能使用既有的工具。
和傳統的機器學習模型相比有何異同?
傳統的做法是使用現有的架構(例如 TensorFlow 或 PyTorch)編寫模型,一般會在 Python 中編寫。您會將它託管在某處。然後取得您想要套用的資料,也許是在一個資料湖,或者在 Snowflake 或 MongoDB。您編寫管道,以擷取該資料並將其轉換。您通常必須做一些清理的工作,然後執行資料轉換及編碼。模型會產出一些預測,然後您或許必須將那些資料輸送到另一個資料庫,或將其提供給正在做決策的應用程式。這是過去的做法。
反觀 MindsDB 則有兩大要素。其一是機器學習模型的核心套件,適用於不同的問題集。MindsDB 可以研究您的資料,然後決定並選擇哪種模型最適合採納。這個要素的另一種可能性是您自己帶走模型。如果有什麼是您特別中意的,您可以使用宣告式架構將它加進 MindsDB ML 核心。
MindsDB 的第二項要素是資料庫連接器:這個包裝函式以這些 ML 模型為中心,可連接至您所擁有的任何資料來源。它可以是串流代理程式,或資料湖,也可以是基於 SQL 的資料庫,而 MindsDB 會連接至該資料庫。接著,您可以使用原生查詢語言,告訴 MindsDB:「讀取此資料,並在這個檢視圖、這些表格或選取的資料中訓練一個預測工具。」
使用 MindsDB 有什麼優勢?
我認為必須清楚傳達這個概念:我們不是要取代任何人力。對於內部機器學習工程師或資料科學家來說,MindsDB 只是節省大量資料整頓、清理、轉換和編碼的工作。之後,這些專業人士可以真正把心力投注入核心模型,選取他們想要從中訓練的資料,然後建立最佳模型。因此,重點在於節省資料科學家的時間。
然後,從長遠來看,如果您是將它直接連接到資料庫,就不必費神維護大量的 ML 基礎結構。如果資料庫表格有所更動,只要變更一點 SQL 即可。您可以設定自己的重新訓練架構格式。如此一來,可為資料科學家節省大量時間並提供更豐富的工具集。這就是我們的目標。
您可以提供一些使用案例的範例嗎?
我們非常著重業務預測,通常是時間序列資料。想像一下,您擁有一個零售鏈,其中包含數千個 SKU:數百家零售商店成千上萬個產品 ID。也許某個 SKU 在威奇托賣得很好,但在底特律卻乏人問津。您如何能做出這種預測?這是一個有待解決的棘手問題,但也往往是業務預測一種很常見的資料集類型。
其中一種非常典型的使用案例是大型雲端服務供應商,我們為他們提供客戶轉換預測。它有一個慷慨的免費使用等級,我們能以極高的精確度告知誰有可能、又會在何時轉為付費使用等級。我們也和大型基礎結構公司合作,負責網路規劃、容量規劃。我們可以相當準確地預測網路流量的去向、哪裡流量大、哪裡流量小,以及公司需要在哪裡增加基礎結構。
我們最有意思的專案之一,也是我很感興趣的專案,是和一家大型電競經銷公司合作,為指導專業電玩遊戲的團隊建立預測工具。比方說,預測另一個團隊會怎麼實施內部分組比賽和內部訓練。或者針對《英雄聯盟》或《Dota 2》等多人線上戰鬥競技場遊戲的特定情況,什麼會是最佳戰術?這是一個很奇特的案例,但我保證它後勢看漲。
哪裡是企業展開機器學習的最佳去處?
超簡單:Cloud.mindsdb.com。我們有免費試用版,設定輕而易舉。無論您將資料存放在哪裡,只要插入 MindsDB,就可以開始運行預測:測試一下,瞭解如何運作。您可以立即試用,親身體驗。也可以加入我們的社群。我們在 MindsDB.com 提供一條連結,連到我們在 Slack 的社群和 GitHub,成員參與非常踴躍,您可以在那裡尋找支援和秘訣。
你們如何與 Intel® 合作,以及這個合作夥伴關係有何價值?
Intel 一直在多個方面大力支援。不用說也知道,它有一個卓越的硬體平台,我們也實施了他們的 OpenVINO™ 架構。我們以這種方式取得亮眼的效能提升。此外,Intel 也提供大量的技術,以及進入市場的機會。
最後有沒有什麼想法或關鍵重點是您要強調的?
親身體驗一下吧。MindsDB 其實蠻好玩的,這是我的個人感想。如果您決定試用、親身體驗,歡迎在我們的 Slack 社群留下意見回饋。我們一直都在努力改良產品,希望新人加入社群。
相關內容
如要進一步瞭解 AI 普及化,請收聽播客:與 MindsDB 一同簡化機器學習。 有關 MindsDB 的最新創新技術,請上Twitter @MindsDB 和 LinkedIn 關注。
本文由Erin Noble編審。