<百度智珠奪冠:在知(zhī)識圖譜領域百度持續領先_上海科格菲利網絡工作室

百度智珠奪冠:在知(zhī)識圖譜領域百度持續領先

發布于:2019-09-06 15:57票開      線家
知(zhī)識圖譜作爲推動互聯網和人工(gōng)計體智能發展的核心驅動力,已成爲當前人工(gōng)智能研究的暗哥最前沿。在剛剛結束的 CCKS 2019“劇件知(zhī)識圖譜問答”大(dà)賽中(zhōng),百度智珠團隊紙雨以 F1 Score 0.73545的好成績奪冠,再次确立了百度在知(zh資秒ī)識圖譜領域的領先優勢。
 
 
 
CCKS 全國知(zhī)識圖譜與語義計算大(劇城dà)會是中(zhōng)國中(zhōng)文信在河息學會語言與知(zhī)識計算專業委員(yuán)會主辦的專注于知(zhī)可風識圖譜與語義計算領域的高水平學術盛會。目前村雨 CCKS 每年的參會人數在中(zhōng)國知(zhī)識可開圖譜與語義計算領域是全國最多的,參賽的單位都一討是國内相關領域的頂尖學術機構(如清華、北(běi)大(dà)、中(zhō些通ng)科院等)和領軍企業(包括百度、阿裏、華爲、小(xiǎo)米等)。鐵購
 
在知(zhī)識圖譜問答項目中(zhōng),高手如雲,包括華一秒爲、網易、大(dà)連理工(gōng)大(dà)學、蘇州大(dà)學等全球們文知(zhī)名企業和高校研究院所隊伍的參與。百度智珠團隊憑借多年在知(zhī)裡舞識圖譜領域的積累,深入分(fēn)析圖譜問答系統的難點,秉影如持技術創新,最終以基于答案語義排序的方案斬獲第一(yī)名現紅。
 
 
 
▲圖1 百度智珠團隊榮獲 CCKS 2019 知(zhī)識圖譜問來美答第一(yī)名
 
百度智珠團隊,緻力于将百度多年積累的知(zhī)識圖譜構建及應用能力賦能身地企業,協助企業打造面向行業的知(zhī)識圖譜及知(zhī)識應用。百度歌會智珠将多模态知(zhī)識理解、知(zhī)識圖譜構建、術學多模态智能搜索等多種能力整合爲統一(yī)的企業知(zhī)識管理智能平台,爲拍來企業組織、應用、管理自有知(zhī)識和第三方知(zh化聽ī)識融合,形成統一(yī)、智能、易用的知(zhī)識管理系統,提供強從妹有力的技術支撐。
 
 
 
本次知(zhī)識圖譜問答評測任務全稱是基于中(zhōng)文知月在(zhī)識圖譜的自然語言問答,簡稱 CK又嗎BQA (Chinese Knowledge Base Questi資劇on Answering)。即輸入一(yī)金我句中(zhōng)文問題,問答系統從給定業生知(zhī)識庫中(zhōng)選擇若幹實體(歌媽tǐ)或屬性值作爲該問題的答案。
 
知(zhī)識圖譜問答是自然語言處理領域當前最那關熱門的研究方向之一(yī),是互聯網知(zh話年ī)識獲取的新入口,也是搜索引擎和對話(huà)系統等行業的關鍵技術,吸引了工河房(gōng)業界和學術界大(dà)量的關注我書。
 
 
 
本次評測任務在去(qù)年的開(kāi)放(fàng)領域問答的基礎機藍上,增加了适量規模的金融專業領域的問題,這就要求問答系統不僅要具備處理開(快業kāi)放(fàng)領域的淺層問題的能力,還必須具是廠備處理領域知(zhī)識的深層問題的能力。
 
本次評測主要有兩大(dà)挑戰:
 
首先,本次評測是在開(kāi)放(fàng)領域的問答,問題覆蓋面廣和河,綜合難度更高。從問題的分(fēn)類看,黑木問題集涉及的領域是多樣的,包括金融、文學、電(司廠diàn)影、遊戲、生(shēng)活甚至常識等多種領舊離域;從知(zhī)識庫的量級來看,測評的知(zhī)識庫包含千萬級别實體(tǐ小林)、億級别的邊、百萬級别的實體(tǐ)類型,大(dà)大(dà)增加了知(他腦zhī)識語義理解難度;從問題的難度角度看,本次評測既包括簡單問題,也包括錢理複雜(zá)問題,而且需要多個三元組回答的問題占了50%雨唱以上的比例。
 
其次,本次評測增加了金融領域的問題,因此也去對深層的領域知(zhī)識理解提了更高要求。與亮國開(kāi)放(fàng)領域圖譜相比,專業領域知(zhī)識的廣度更窄鐵長、實體(tǐ)粒度更細;同時推理的鏈路更長、應用的複民我雜(zá)性更大(dà)。
 
針對以上挑戰,百度智珠團隊提出端到端的核心實體(tǐ)鏈接南風與子圖編碼的語義匹配算法系統來解決。第一(yī)步不算,基于子串匹配和命名實體(tǐ)識别等方法識别問題中(zhōng車高)的指稱;第二步,對指稱召回的實體(tǐ)進行打分(fēn近匠),選擇出問題的核心實體(tǐ),即實體(tǐ)鏈接;第三步,定義多種子圖化的召回模闆,召回核心實體(tǐ)大(dà)量的子圖;第靜哥四步,對每個子圖抽取字面匹配度、淺層語義匹配、深度語義匹配度等特征,排序得到輛人答案。
 
 
▲圖2 系統框架流程:指稱識别 → 實體(tǐ)鏈接 → 模闆匹配 →低國 路徑排序
 
百度智珠團隊在實現這一(yī)過程中(zhōn術照g),引入了兩個創新方法,分(fēn)别是:端到端的核心實小得體(tǐ)鏈接與子圖編碼的語義匹配算法。
 
 
▲圖3 模塊細節:實體(tǐ)鏈接和路徑排序
 
實體(tǐ)鏈接組件把問題中(zhōng)提及的實體(tǐ)厭視鏈接到了知(zhī)識庫,并識别問題的核心實體(tǐ)。爲了提高鏈接的精度,妹刀鏈接組件綜合考慮了實體(tǐ)的子圖與問題的匹配度、實體(tǐ)的流行度、指有人稱正确度等多種特征,最後利用 LambdaRank 算法對實體(tǐ會湖)進行排序,得到得分(fēn)最高的實體(tǐ)。
 
子圖排序組件目标是從多種角度計算問題與各個子圖們樂的匹配度,最後綜合多個匹配度的得分(fē年月n),得到出得分(fēn)最高的答案子圖。
 
針對千萬級的圖譜,百度智珠團隊采用了自主研發的策略來進行子圖生(shē冷厭ng)成時的剪枝,綜合考慮了召回率、精确率和時間代價等因素,從線姐而提高子圖排序的效率和效果。
 
針對開(kāi)放(fàng)領域的子圖匹配,采用字面匹配函數計算短費符号化的語義相似,應用 word2vec 爸為框架計算淺層的語義匹配,最後應用 BERT 算法做深度語義對齊。
 
除此之外(wài),方案還針對具體(tǐ)的特征吃兵類型的問題進行一(yī)系列的意圖判斷,進一(yī)步提升模型在真她熱實的問答場景中(zhōng)的效果和精度,更好地控制返回的答看還案類型,更符合真實的問答産品的需要。
 
中(zhōng)文知(zhī)識圖問答任務,是衡量機拿樂器理解人類語言綜合水平和知(zhī)識的重要方式。C刀討KBQA 知(zhī)識圖譜評測取得的成績,将有力推動問答技術和産是關品的發展。
 
同時,圖譜問答技術将落地到下(xià)一(yī)代搜索引擎和對話文土(huà)系統等行業中(zhōng),爲數億的用戶提供更精準的問白懂答服務。
 
本次大(dà)會爲知(zhī)識圖譜在專業領域的技術突破吧短帶來更開(kāi)放(fàng)的思維空間和更廣闊的研究視野。未光妹來,百度智珠團隊也将繼續秉持開(kāi)放(到樂fàng)學習、協同創新的理念,積極把握相關學術、産業照慢交流機會,與 AI 各界展開(kāi)更廣泛、更深入的探讨與合作,加快 物會AI 技術落地,努力爲行業帶來更高效的智能化解決方案。

上一(yī)篇:智能手機複古是不是重新定義

下(xià)一(yī)篇:盲盒可能是下(xià拿答)一(yī)個孵化IP的新渠道

相關内容 觀察行業視覺,用專業的角度,講出你們的心聲。

I NEED TO BUILD WEBSITE

我(wǒ)(wǒ)需要建站

*請認真填寫需求信息,我(wǒ)(wǒ)們會在2化身4小(xiǎo)時内與您取得聯系。