在當前的技術領域,沒有什么能像人工智能(AI)那樣使人好奇和興奮。我們才漸漸看到企業內人工智能應用程序的潛在好處。
然而,因為數據科學家往往無法獲得建立高效人工智能模型所需的相關數據,企業中人工智能的發展受到了阻礙。這些數據專家往往只能依賴一些已知的來源,如現有的數據倉庫,而不能利用他們所需的所有實時的,真實的數據。此外,很多公司費了九牛二虎之力才能高效且經濟地左右海量數據的業務環境和質量。有鑒于這些困難,人們不難理解人工智能的加速和采用所面臨的一些歷史障礙。
數據最終僅對人工智能有用——或在其它情況下有用——只有當你理解它時才成立。具體而言,這意味著你要了解它的背景和重要性。只有這樣,你才能放心大膽地用它來訓練人工智能模型。實現這一目標的唯一方法具備“智能數據”的根基。
多年來,我們所做的不僅僅是數據的收集和聚合,目的是推動特定的業務應用程序(數據1.0),由于數據的數量、種類和速度繼續暴漲(數據2.0),組織已經能夠創建明確的流程,讓所有人都能使用數據。但這還遠遠不夠。我們現在已經到了這樣的程度——人們需要智能數據才能真正為企業范圍的轉型提供動力(數據3.0)。
例如,試想一下一家公司重新定義其與客戶群的傳統關系所面臨的難題。假設你是一家生產剃須刀片的公司,其目標是通過訂閱而非柜臺直接交易的方式銷售刀片。指導這種顛覆性變革需要來自數據源(數據庫,數據倉庫,應用程序,大數據系統,物聯網,社交媒體等)的輸入,需要各種數據類型(結構化的、半結構化的和非結構化的)和不同位置(本地的、云端的,混合的和大數據)。又或者,如果你是一家重型設備制造公司,該公司要確保你可以實時處理車間和機器人的所有數據,以預測所有的停機時間,同時保持定期維護,以避免可能耗費數百萬美元的運營停機時間。
數據湖泊正在成為這樣的變革性事業所需的大量不同數據的首選存儲庫。但沒有智能數據,這些湖泊則無甚價值。Gartner估計,到2018年,竟有90%的數據湖泊變得毫無用處,因為它們充斥著鮮有人能夠使用的原始數據。(“元數據能在數據湖泊中獲得目標數據?!?
相比之下,有了智能數據,數據科學家就可以對“客戶”這樣的詞進行類似谷歌一樣的搜索,并立即發現相關數據的所有可能來源。智能數據可以節省大量寶貴的時間,不然數據科學家可能不得不花費大量時間來收集、組裝和改進模型所需的數據。智能數據還能實現最可靠的成果。
那么你如何確保數據真正實現智能化?方法就是構建端到端的數據管理平臺,該平臺本身就使用機器學習和人工智能功能,由廣泛的元數據驅動,以提高平臺的整體生產力。元數據是挖掘數據價值的關鍵。
如果你想確保自己能提供全面、重要且準確的數據來實施人工智能,那么你需要考察四種不同的元數據類別:
1. 技術元數據:包括數據庫表和列信息以及有關數據質量的統計信息。
2. 業務元數據:定義數據的業務情境以及它參與的業務流程。
3. 操作元數據:有關軟件系統和流程執行的信息,例如,它們會指示數據新鮮度(data freshness)。
4. 使用元數據:有關用戶活動的信息,包括人們所訪問的數據集,評級和評論。
應用于此類元數據的人工智能和機器學習不僅有助于發現和推薦正確的數據。這樣的數據也會自動得到處理而無需人工干預,使其適用于企業人工智能項目。
數字化轉型迫使組織以不同的方式審視數據,問題是組織想變成“老鷹還是小雞”。如今,人們可以隨時使用實時的、始終可用的數據和工具,使快速分析成為可能。這推動了人工智能和機器學習的發展,使過渡到數據優先的方法成為現實。由于數字化、數據爆炸以及人工智能對企業的革命性影響,人工智能的復興正在蓬勃發展。
顯然,有無數的數據輸入可能影響人工智能應用程序的決策,因此組織需要對相關且有影響力的內容進行分類,以及什么是噪聲。在你的組織采用人工智能驅動的數據管理方法之前,請考慮以下問題:
你希望通過人工智能技術實現什么樣的目標?
你是否有合適的數據策略來助力人工智能驅動的決策?
你具備合適的技能了嗎?
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。