在一(yī)般的搜索引擎架構中(zhōng),網頁去(qù)重一(yī)般在S校熱pider抓取部分(fēn)就存在了,“去(qù)重”步驟在整個搜索時事引擎架構中(zhōng)實施得越早,越可以節約後續處理系統高拍的資(zī)源使用。搜索引擎一(yī)般會對電如已經抓取過的重複頁面進行歸類處理,比如,判斷某個站點是否自場包含大(dà)量的重複頁面,或者該站點是船廠否完全采集其他站點的内容等,以決定以後對該站點的抓取情況暗海或是否直接屏蔽抓取。
去(qù)重的制業工(gōng)作一(yī)般會在分(fēn)詞之一時後和索引之前進行(也有可能在分(fēn)詞之前),搜索引擎會在頁面已經空謝分(fēn)出的關鍵詞中(zhōng),提取部分(fēn)具有代表性的你商關鍵詞,然後計算這些關鍵詞的“指紋”。每一(yī)個網頁都會有個這樣的特征指子開紋,當新抓取的網頁的關鍵詞指紋和已索引網頁的關鍵詞指紋有錢但重合時,那麽該新網頁就可能會被搜索引擎視爲重複内容而民著放(fàng)棄索引。
實林土際工(gōng)作中(zhōng)的搜索引煙書擎,不僅僅使用分(fēn)詞步驟所分(fēn)出的有意義的視個關鍵詞,還會使用連續切割的方式提取關鍵詞,并進行指紋計算。連續切村動割的方式提取關鍵詞,并進行指紋計算,連切割就是以單個字向後移動什老的方式進行切割就是單個字向後移動的方式進行切現雨詞,比如,“百度開(kāi)始打擊買賣鏈短船接”會被切成“百度開(kāi)”“度開(k吃紙āi)始”“開(kāi)始打”“始打擊”“打船上擊買”“擊買賣”“買賣鏈”“賣鏈接”。然後從這些詞中(zh門門ōng)提取部分(fēn)關鍵詞進行指紋計算,參與是否重複内容的對舞志比。這隻是搜索引擎識别重複網頁的基本算法,還有很多其花了他對付重複網頁的算法。
&n相請bsp;因此網絡上流行的大(dà)部分(fē對自n)僞原創工(gōng)具,不是不能欺騙搜索引擎,就是把内容做的鬼都讀不通內照,所以理論上使用普通僞原創工(gōng)具不能得到搜索引擎問讀的正常收錄和排名。但是由于百度并不是對所有的重複頁面計習都直接抛棄不索引,而是會根據重複網頁所在網站的權重适當放(現商fàng)寬索引标準,這樣使得部分(fēn)作弊者看西有機可乘,利用網站的高權重,大(dà)量采集其他站點的内容獲取搜索流量。不過自西廠2012年6月份以來,百度搜索多次升級算兒為法,對采集重複信息、垃圾頁面進行了多次重複級的打擊。所以SEO在面對網站内容家費時,不應該再以僞原創的角度去(qù)建設,而需要以街坐對用戶有用的角度去(qù)建設,雖然後者的内煙道容不一(yī)定全部是原創,一(yī)般如果網站權重沒有大(d紅雨à)問題,都會得到健康的發展。關于原創問題雜裡,本書(shū)後續會在第12章進行詳細呢一讨論。
 短朋;另外(wài),不僅僅是搜索引擎需要“網頁去(qù)重”,自己做網站兒答也需要對站内頁面進行去(qù)重。比如分(fēn)類信息、不好B2B平台等UGC類的網站,如果不加以限制北內,用戶所發布的信息必然會有大(dà)量的重複坐海,這樣不僅在SEO方面表現不好,站内用戶體(tǐ)驗也會降低很多。有如SEO服問人員(yuán)在設計流量産品常見的一(yī)老對般爲以“聚合”爲基礎的索引頁、專題頁或目錄頁,美樹“聚合”就必須有核心詞,不加以過濾,海量核心詞所擴展出來的頁面就可能會有大男體(dà)量重複,從而導緻該産品效果不佳,甚至會媽姐因此被搜索引擎降權。
“去(qù)重”算法放視的大(dà)概原理一(yī)般就是如上所述,有興趣的朋友可以了解區拿一(yī)下(xià)I-Match、Shingle、SimHash及餘弦去白事(qù)重具體(tǐ)算法。搜索引擎在做“網頁志山去(qù)重”工(gōng)作之前首先要分錯銀(fēn)析網頁,内容周圍的“噪聲”對去(qù)重結果多少會有影遠她響,做這部分(fēn)工(gōng)作時隻對内公個容部分(fēn)操作就可以了,相對來說會簡單很多,綠飛并且可以很有效地輔助産出高質量的“SEO算用産品”。作爲SEO人員(yuán)隻要了解實現原理就可以了,具體(tǐ)在術可産品中(zhōng)的應用,需要技術人員(yuán區員)來實現。此外(wài)還涉及效率、資(zī習姐)源需求等問題,并且根據實際情況“去(qù)重”工(gōng)作也可以上水在多個環節進行(比如對核心詞的分(fēn)詞環節),SE低外O人員(yuán)隻要稍微了解一(yī)些原理,能夠爲技術人員(yuán森哥)建議幾個方向就很不錯了(技術人員(yuán)并不是萬能的,也有不熟悉女去、不擅長的領域,在特定時刻也需要别人提供思路)。如果SEO人員(yuá的鄉n)能在這些方面和技術人員(yuán)進行深入的交流,技術人員(yuán)師的也會對SEO另眼相看,至少不會再認爲“SEO人年土員(yuán)就隻會修改标題、改鏈接、改文字之類‘無聊’的需了用求”了。
&n靜和bsp;總結:在次感謝痞子瑞的怎麽好的書(shū)本,妮子在SEO思維中(z看她hōng),找到新的知(zhī)識,去(qù)重,指紋原理。希望兄弟(dì)火你姐妹們可以去(qù)看看這本書(shū),今天給大(dà)家分(fēn)享黃北一(yī)部分(fēn)吧!往後的日子,看到好的知(zhī)識點,會繼刀秒續和大(dà)家分(fēn)享了。
上一(yī)篇:新網站快速見效果的辦法
下(xià)一(yī)篇:網絡營銷SEO為懂的好處