杭州SEO專用徐少輝要說的是:網(wǎng)頁查重算法,也就是搜索引擎是怎么檢查兩個(gè)網(wǎng)頁的相似性的?這應(yīng)該是大家應(yīng)該比較關(guān)心的問題吧,因?yàn)檫@有助于讓你的“偽原創(chuàng)”更像一個(gè)“原創(chuàng)”
首先我跟大家講有名的I—MATCH算法。
我們?cè)诒容^兩件事物的相似性時(shí),往往都會(huì)拿能均衡的反應(yīng)這事物本質(zhì)的東西來比較,就像比賽時(shí),要去除一個(gè)最高分和最低分,然后再變算總分一樣~~
I—MATCH算法基于的依據(jù)是,在文擋中,特別高頻的詞和特別低頻的詞無法反應(yīng)這一個(gè)文擋的真實(shí)內(nèi)容,所以在比較之前,先將文擋中高頻詞和低頻詞去掉(注意:這里的高頻和低頻指的是文檔頻率,并非關(guān)鍵詞在你網(wǎng)頁中的密度!)
我們來看一個(gè)例子:
這里有兩段網(wǎng)頁文字:
1.中國足球隊(duì)在米盧的率領(lǐng)下首次獲得世界杯決賽階段的比賽資格,新浪體育播報(bào) 。
2.米盧率領(lǐng)中國足球隊(duì)員首次殺入世界杯決賽階段,搜狐體育播報(bào)。(嘿嘿,看到這兩句很熟吧?)
文檔(一)中去掉高頻:中國,在,的,獲得,比賽,資格,新浪,體育,播報(bào)
去掉低頻:米盧
則剩下中頻詞有:足球隊(duì),率領(lǐng),首次,世界杯,決賽,階段
文檔(二)中去掉高頻:中國,搜狐,體育,播報(bào)
去掉低頻:米盧,殺入
則剩下中頻詞有:率領(lǐng),足球隊(duì),首次,世界杯,決賽 ,階段
看到了吧?剩下的,兩者是一模一樣 這就是相似性的存在
呵呵,其實(shí)這個(gè)例子很早就有過的。。
綜上所述:搜索引擎要檢測(cè)相似性,主要就是要分詞和詞頻的比較!!
|