本文的作者IvyNguyen是ZettaVenturePartners的投資者,曾為NewGenCapital的高級助理,并在ImageH2O管理創業加速器項目。本文中,作者基于當前數據爆炸時代的背景,探討了數據對初創企業的重要性,并從數據收集、存儲、管理、建模等各個過程中分析成本問題,同時提出了一些可能節約成本的方式。
目前,數據逐步成為AI創企的“金鐘罩鐵布衫”:初創企業收集的數據越多,就越能訓練出更好的AI模型,使得新的市場競爭者難以與之匹敵。然而,這些數據并非免費獲取,許多AI創企認為,這筆額外的費用大大侵蝕了他們的利潤。隨著時間的推移,這些公司可能希望降低在數據上的投入,但目前尚不清楚如何預測這種情況出現的時間,以及降低至何種程度,這就增加了公司對未來增長進行建模的難度。
在軟件創企中,產品開發費用在損益表上歸屬于研發成本,而AI創企則將數據成本作為銷售成本(costofgoodssold,COGS)的一部分,后者這種做法有助于企業發掘擴大規模同時降低成本的機遇,從而提高利潤率。
下面的數據價值鏈流程圖顯示了大多數AI創企獲取和使用數據的方式。首先,企業將基礎事實的片段作為原始數據進行記錄。企業可將原始數據存儲在某處,然后建立流程或途徑進行維護和訪問。在運用于AI模型之前,企業需要對數據進行標注,以便AI模型實施處理每個數據點的行為。隨后,訓練有素的模型接收數據并產生反饋,企業便可以使用這種反饋來執行驅動終端用戶某種行為的操作。該過程可以分為三個不同的步驟:獲取數據、存儲數據和為了訓練模型而標注數據。每一步都會產生相應的成本。
數據采集成本
在所有的數據價值鏈中,任何傳感器(無論是物理設備還是人類)在收集原始數據時,首先需要捕捉對現實的觀測。在這種情況下,數據采集的成本將來自于傳感器的創建、分配和操作。如果該傳感器是一種硬件,企業必須考慮材料和制造的成本;如果傳感器是人,則成本來自于人員的招募以及提供他們制作和記錄觀察結果所需的工具。根據覆蓋范圍的不同,企業可能需要支付大量的費用來分布傳感器。不僅如此,在某些用例中還可能需要進行高頻率的數據收集,這也可能會增加人工和維護成本。例如,受眾測量公司尼爾森(Nielsen)就需要承擔上述所有成本,因為它既提供收視率收集盒,也需承擔獲取參與者電視節目觀看情況的許可費。這樣一來,隨著覆蓋范圍越來越廣泛,尼爾森的數據就越有價值,規模經濟也就自然而然降低了單位數據采集成本。
在某些用例中,企業向終端用戶提供管理工作流程的工具(例如,自動電子郵件響應生成器),將他們捕獲的數據存儲在他們的工作流程中,或者觀察他們與工具的交互并將其記錄為數據,從而將數據采集的工作和成本轉移給終端用戶。如果企業選擇免費分布這些工具,那么數據采集的成本就將是獲取用戶的成本?;蛘咂髽I可以選擇對工作流工具進行收費,這種方式可能會減慢和限制客戶采用率,從而在抵消數據采集成本的同時減少數據采集,具體的降低和限制程度將取決于企業對該工具的定價。
例如,我們公司的投資組合之一,大數據公司InsideSales為銷售代表提供了一個可直接與銷售線索建立聯系的平臺。在銷售代表使用的過程中,平臺會自動記錄互動的相關數據,例如時間、模式、其他元數據,以及該銷售渠道中的銷售線索是否有進展。這些數據將被運用于AI模型的訓練,從而計算出聯系潛在客戶最佳的通信時間和通信方式。在這種情況下,隨著越來越多用戶入駐該平臺,網絡效應就有可能會提高工具的實用性,從而降低獲取用戶的成本。
另外一種方式是,在另一個實體已經建立了數據收集渠道的情況下,確保建立戰略伙伴關系可以進一步降低成本。例如,我們的另一家公司Tractable采用計算機視覺來實現汽車保險調節器的自動化。該公司目前正與幾家業內出色的汽車保險公司合作,致力于研發獲取受損汽車圖像的技術。除此之外,我們無需使車主下載應用程序,從而節約了應用程序推廣所需的成本。
存儲和管理成本
在數據存儲和訪問方面,初創企業也面臨著一個成本問題。除了數據收集之外,企業可能還需要客戶提供其他相關數據來豐富模型。由于許多行業近期才逐步實現數字化,因此任何擁有企業所需數據的潛在客戶都不容小覷。為了獲取這些數據,企業可能會在低利潤率的數據準備工作中花費大量的人力。
此外,如果數據分布在不同的系統和孤島中,那么企業可能需要花費大量的時間來構建各個集成,從而使模型完全正常運行。有些行業圍繞整體式和異質性技術堆棧建立,使集成很難在客戶之間重復使用。如果無法獲取集成服務提供商,那么這家AI創企很快就可能發現自己陷入了這樣的泥潭:只有為每個新客戶構建定制集成,才能部署其AI系統。數據的結構方式也可能因客戶而異,這就要求AI工程師花費額外時間對數據進行規范化或將其轉換為標準化模式,從而應用AI模型。企業可以采用建立公共集成庫的方法降低成本,因為它可以在新客戶中被重復使用。
訓練成本
大多數建立AI模型的方法都需要對數據進行標注,這對AI創企來說是最大的和最可變的成本之一。如果這些示例簡單明了或是通俗易懂,外行人就可以進行標注。例如,在圖片中畫一些蘋果,然后在所有蘋果周圍畫一個框,即可標注為外包勞務服務。
但有時,注釋需要更多的專業知識和經驗,例如根據視覺線索來確定蘋果的質量和成熟度,或者判斷石油鉆機上的一小塊銹斑是否具有風險。對于這種更專業的勞動力,企業可能需要建立一個高薪的內部專家標注團隊。根據企業的標注方式,可能還必須構建自己的標注工作流工具,盡管Labelbox等公司目前已經開始提供此類工具。
在某些AI應用程序中,終端用戶會是最有效的標注器,企業可以通過設計產品來減輕標注成本,這樣用戶就可以在與產品交互時進行數據標記。例如,Constructor提供針對電子商務的人工智能網站搜索,觀察用戶實際點擊和購買每個產品的搜索詞,使這些網站能夠優化搜索結果從而獲得更高的銷售額。這種標注不可能通過外包或專家搜索服務進行人工操作,而且這種方式大大節約了Constructor潛在的巨額標注成本。
即使受到了高精度的訓練,但當模型無法確切地解釋一項新輸入的內容時,仍然需要進行偶爾的人工干預。根據模型向終端用戶傳遞價值的方式,該用戶自己可以對模型進行更正或標注,企業也可以通過使用質量控制的“AI保姆”來處理異常。如果企業正在建模的環境不穩定且變化速率很高,那么企業可能需要在穩定狀態下保留一組標注器,以便根據需要使用新的數據更新模型。
擴展AI業務
第一批成功的AI企業進入市場時,通過提供無AI的工作流工具來捕獲訓練AI模型的數據,并且該數據最終提高了工具的價值。這些初創企業在早期就能夠實現軟件利潤,因為數據和人工智能在其價值主張中居于次要地位。然而,隨著市場轉向更專業的AI應用,下一波AI創企將面臨更高的啟動成本,并將耗費更多的人力來為客戶提供初始價值,導致其成為低利潤率的服務企業。
獲得大量客戶和數據最終將降低單位經濟效益和構建至關重要的復合防御能力,但許多初創企業并不確切地了解這一點,也不明白他們需要采取哪些行動才能更快地實現目標。而出色的AI創企則會通過這種方式進行優化權衡,有計劃地進行投資并迅速擴張。
人妻精品一区二区三区_好紧好湿好硬国产在线视频_亚洲精品无码mv在线观看_国内激情精品久久久責任編輯:Rachel
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。