微軟亞洲研究院有一位大名鼎鼎的個人助理,昵稱EDI(音同Eddie),從幫助員工預訂會議室到更新梳理公司內部“八卦”信息,隨叫隨到全年無休;不僅如此,EDI對員工們的喜好也堪稱了如指掌,知道你最喜歡什么時候、最常在哪里開會,也知道你最關心哪些新聞。這份體貼贏得了越來越多員工的信任和喜愛,目前在研究院中已經有 超過一半的會議 是由EDI來安排——是的,你沒猜錯,EDI是人工智能。
職場知識圖譜
EDI為何如此聰明?一方面,EDI擁有精準的自然語言理解和對話能力;另一方面,利用深度學習和社交網絡融合等前沿技術,EDI為每個用戶構建了一張關于他們的職場知識圖譜。本文首先介紹如何構建用戶的職場信息圖譜,這是EDI個人助理的“大腦”,后續文章將介紹如何賦予EDI自然語言理解和對話能力,讓它能為主人愉快地工作,歡迎有興趣的讀者繼續關注。
“The more it has, the more it’s him.” 在英劇《黑鏡》第二季第一集當中,女主人公通過和機器人對話的方式懷念自己逝去的男友。借助大數據的力量,這個機器人能夠從主人公男友的社交網絡甚至私人郵件中抽取和整合他的個人信息、關系網絡和語言習慣,構建屬于這位男生的個性化知識圖譜,從而實現對他惟妙惟肖的模仿——如上圖臺詞所說,系統抓取到的信息越多,機器人模仿的語言行為就越和他本人相似。
若說《黑鏡》里的機器人是基于關于用戶的全方位知識圖譜,那么,本文要介紹的EDI 則專注于用戶的一個側面,即用戶的職場知識圖譜。
在一個機構里,我們把員工的職場知識圖譜叫做EDI Graph( Enterprise Deep Intelligence Graph ),圖譜內的信息包括員工的部門、技能、項目、文檔、時間、會議室和辦公室等,其中每條信息又有各自豐富的屬性,信息與信息之間也存在豐富的關聯;這些信息的來源主要分為企業內部數據和互聯網數據兩部分,其中,企業內部數據主要包括內部網頁、文檔、會議記錄、員工基本資料等數據,互聯網數據則主要包括維基百科、學術論文、LinkedIn等公開數據。如何將來自公司內部、社交網絡、Web等不同來源的異構數據進行梳理和融合、構成一張完整的職場知識圖譜,這是構建EDI Graph的關鍵技術。只要有了圖譜,就能構建EDI Bot,讓這個昵稱為EDI的機器人擁有“大腦”,能進行理解和分析,了解每個員工的專長以及從事的工作內容,成為員工貼心的個人助理。
與《黑鏡》里的機器人相似,EDI也是知道信息越多就越能了解人以及人與人之間的關系,越接近員工的工作知己。
信息融合
“EDI, where is BJW1?”
對于同一件事,人們往往會有不同的表達,這是人與機器的一大不同。 舉例:“BJW1”是英文“北京微軟西1號樓“的簡稱,但人們在不同情境下可能還有其他表達方式,比如“BJW-1”、“Beijing West 1”、“Microsoft Tower 1,Beijing,China”以及“微軟1號樓”等,這些表達上的差異無法用簡單的字符串匹配或縮寫匹配的方式來完成相似度的計算。那么,EDI該如何知曉它們所指的其實是同一個地點呢?
我們的做法是將這些千變萬化的表達看作不同的語言,通過機器翻譯技術,找到詞與詞之間具有的某種翻譯關系,從而實現相似詞語的融合。
首先,利用種子規則,找到信息中高準確度的種子節點對,利用種子節點對中屬性的不同表達,構建平行語料庫。之后,使用深度學習技術構建翻譯模型,完成不同信息源之間的屬性“翻譯”。通過機器翻譯,不僅能計算簡單字符串匹配無法計算的相似表達,甚至還能計算不同語言中同一表達的相似度,讓EDI 能夠吸收消化更多更廣泛的信息來源,對用戶的表達做出更準確的判斷。
“Hi EDI, schedule a meeting with David now.”
精確匹配的突破口在于不同David的職場知識圖譜,其網絡結構也是不同的,我們使用協同訓練(Co-Training)的方法,迭代地進行圖結構信息的匹配。在每一輪迭代中,首先利用當前已匹配的實體對,更新神經網絡翻譯模型,并利用更新后的模型完成屬性間的相似度計算;同時,根據當前已匹配節點計算待匹配節點的公共相鄰節點對,通過結合屬性匹配和圖結構,可以得到新的匹配集合,如此迭代直到收斂。
簡單說,EDI能將職場知識圖譜中同一個David的信息融合到一起,把不同的David放在各自節點上,然后通過參會歷史、項目合作、內部的匯報關系等等,了解公司同事之間的遠近,從而鎖定用戶真正想找的David,完成用戶交給的安排會議并預訂會議室的任務。
信息分析與理解
《黑鏡》中的機器人系統對主人公男友在社交網絡上的電郵、照片、視頻甚至聊天記錄進行了深入的分析和學習,從而實現對其惟妙惟肖的模仿。同樣,EDI在掌握豐富的信息之后,也需要進一步分析和理解這些數據,才能深入了解企業中的每一個員工。
在一個企業中為員工構建職場知識圖譜,最為基本也最為重要的一點,就是構建出每位員工的工作內容時間線,通過時間線我們就可以了解到“who,when,what”,即:誰,在何時,做過什么事情。
有了這些結構化的知識,如果想知道誰在做Cortana相關的項目,只需要問“Who is working on Cortana?”,EDI就能給出你想要的答案。這對構建企業智能應用具有極為重要的意義。
順帶指出,項目名稱的抽取也不簡單。我們無法通過簡單地標注數據、訓練模型或是基于規則的方法來進行抽取,因為不同行業、不同領域對于項目的表述可能千變萬化,那么EDI是如何抽取出工作內容以及相關項目的名稱呢?
我們認為,項目的名稱都是語義完整的短語——例如,在“微軟亞洲研究院在丹棱街5號”這句話里,“微軟亞洲研究院”就是一個語意完整的短語——于是,我們先從企業內部的數據抽取出語意完整的短語,再從這些短語中劃分出項目的名稱。在微軟內部,各種文檔、網頁等總量在千萬這個數量級,而統計規則例如互信息、熵等,在數據量較大的時候可以有效地完成對短語的切分。因此,我們在遞歸神經網絡(Recursive Neural Network)模型中通過后驗正則化(Posterior Regularization)引入互信息、熵等統計量定義的偏序切分規則,在完成短語劃分的同時,得到其對應的語意向量表示,最后通過度量語意信息來判斷其是否是一個項目的名稱。
小結
有了基于企業內部和互聯網大數據構建員工的職場知識圖譜EDI Graph,就能讓機器人個人助理EDI Bot擁有聰明的“大腦”,為用戶提供貼心的服務。我們將在后續的文章具體介紹EDI Graph怎么被運用到機器人的工作場景中,以及怎樣通過平臺讓機器人獲得與人進行自然語言對話的能力,敬請關注,也歡迎你就這一題目分享自己的見解和經驗。
人妻精品一区二区三区_好紧好湿好硬国产在线视频_亚洲精品无码mv在线观看_国内激情精品久久久責任編輯:Rachel
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。