中出人妻日本日韩免费看AV|伊人AV综合欧美一级片播放|精品一区偷拍毛片网站站|黄色电影一区二区|污污在线无码东京热无码AV|高清国产无码免费视频|av在线人妻人畜A片|成年女人高清黄视频在线观看|黄色一级99A片|亚洲黄色一级电影

外貿(mào)課堂 外貿(mào)網(wǎng)站 外貿(mào)SEO 付費廣告 社交營銷 外貿(mào)營銷 外貿(mào)推廣 外貿(mào)知識 外貿(mào)政策 外貿(mào)百科
當前位置:首頁 > 外貿(mào)課堂 > 外貿(mào)營銷 > 網(wǎng)頁的查重技術(shù) 搜索引擎知識

網(wǎng)頁的查重技術(shù) 搜索引擎知識

對于搜索引擎來說,重復的網(wǎng)頁內(nèi)容是非常有害的。重復網(wǎng)頁的存在意味著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫里索引兩份相同的網(wǎng)頁。當有人查詢時,在搜索結(jié)果中就會出現(xiàn)重復的網(wǎng)頁鏈接。所以無論是從搜索體驗還是系統(tǒng)效率檢索質(zhì)量來說這些重負網(wǎng)頁都是有害處的。

網(wǎng)頁查重技術(shù)起源于復制檢測技術(shù),即判斷一個文件內(nèi)容是否存在抄襲、復制另外一個或多個文件的技術(shù)。1993年Arizona大學的Manber(Google現(xiàn)副總裁、工程師)推出了一個sif工具,尋找相似文件。1995年Stanford大學的Brin(Sergey Brin,Google創(chuàng)始人之一)和Garcia-Molina等人在“數(shù)字圖書觀”工程中首次提出文本復制檢測機制COPS(Copy Protection System)系統(tǒng)與相應算法[Sergey Brin et al 1995].之后這種檢測重復技術(shù)被應用到搜索引擎中,基本的核心技術(shù)既比較相似。

網(wǎng)頁和簡單的文檔不同,網(wǎng)頁的特殊屬性具有內(nèi)容和格式等標記,因此在內(nèi)容和格式上的相同相似構(gòu)成了4種網(wǎng)頁相似的類型。

1、兩個頁面內(nèi)容格式完全相同。

2、兩個頁面內(nèi)容相同,但格式不同。

3、兩個頁面部分內(nèi)容相同并且格式相同。

4、兩個頁面部分重要相同但格式不同。

實現(xiàn)方法:

網(wǎng)頁查重,首先將網(wǎng)頁整理成為一個具有標題和正文的文檔,來方便查重。所以網(wǎng)頁查重又叫“文檔查重”。“文檔查重”一般被分為三個步驟,

一、特征抽取。

二、相似度計算和評價。

三、消重。

1.特征抽取

我們在判斷相似物的時候,一般是才能用不變的特征進行對比,文件查重第一步也是進行特征抽取。也就是將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,這一步是為了方面后面的特征比較計算相似度。

特征抽取有很多方法,我們這里主要說兩種比較經(jīng)典的算法,“I-Match算法”、“Shingle算法”。“I-Match算法”是不依賴于完全的信息分析,而是使用數(shù)據(jù)集合的統(tǒng)計特征來抽取文檔的主要特征,將非主要特征拋棄。“Shingle算法”通過抽取多個特征詞匯,比較兩個特征集合的相似程度實現(xiàn)文檔查重。

2.相似度計算和評價

特征抽取完畢后,就需要進行特征對比,因網(wǎng)頁查重第二步就是相似度計算和評價。

I-Match算法的特征只有一個,當輸入一篇文檔,根據(jù)詞匯的IDF值(逆文本頻率指數(shù),Inverse document frequency縮寫為IDF)過濾出一些關鍵特征,即一篇文章中特別高和特別低頻的詞匯往往不能反應這篇文章的本質(zhì)。因此通過文檔中去掉高頻和低頻詞匯,并且計算出這篇文檔的唯一的Hash值(Hash簡單的說就是把數(shù)據(jù)值映射為地址。把數(shù)據(jù)值作為輸入,經(jīng)計算后即可得到地址值。),那些Hash值相同的文檔就是重復的。

Shingle算法是抽取多個特征進行比較,所以處理起來比較復雜一些,比較的方法是完全一致的Shingle個數(shù)。然后除以兩個文檔的Shingle總數(shù)減去一致的Shingle個數(shù),這種方法計算出的數(shù)值為“Jaccard 系數(shù)”,它可以判斷集合的相似度。Jaccard 系數(shù)的計算方法集合的交集除以集合的并集。

3.消重

對于刪除重復內(nèi)容,搜索引擎考慮到眾多收錄因素,所以使用了最簡單的最實用的方法。先被爬蟲抓取的頁面同時很大程度也保證了優(yōu)先保留原創(chuàng)網(wǎng)頁。

網(wǎng)頁查重工作是系統(tǒng)中不可缺少的,刪除了重復的頁面,所以搜索引擎的其他環(huán)節(jié)也會減少很多不必要的麻煩,節(jié)省了索引存儲空間、減少了查詢成本、提高了PageRank計算效率。方便了搜索引擎用戶。

上一篇:A5源碼:2017年5月份源碼更新推薦

下一篇:外貿(mào)網(wǎng)站推廣利用社交媒體的好處


相關文章:

杭州市濱江區(qū)偉業(yè)路3號

業(yè)務熱線(微信同號):18143453325

業(yè)務郵箱:2848414880@qq.com

業(yè)務QQ:2848414880

目標:致力于幫助中國企業(yè)出海淘金

使命:為國內(nèi)企業(yè)跨境出海提供動力支持

愿景:打造用戶期待和尊重的外貿(mào)服務商

Copy © 外貿(mào)巴巴 www.jaiat.com 版權(quán)所有備案號:浙ICP備18013128號-2