此項功能是業界最為領先的技術之一,為熊貓獨創。
在熊貓V1.6版本中,增加了依據內容來判斷文章相似度的功能,并依據相似度判斷結果,來過濾內容重復的文章。
熊貓會在對采集結果文章分詞的基礎上,對分詞結果建立索引,然后依據新的文章的分詞結果快速檢索到相似文章。熊貓為此內置了一個獨立開發的分詞索引檢索引擎,性能強勁,內存消耗低,CPU占用極低。
默認情況下,熊貓會自動依據采集信息的來源URL,來判斷、過濾重復采集的數據。這也是一個成熟的采集軟件的必備基礎功能之一。但是出于習慣,互聯網內容復制、轉載的非常多,不同url下的內容,可能會完全相同,或基本相同,此時就無法依據采集來源的Url來判斷數據的重復性。
利用熊貓的分詞索引功能,實現內容相似度的判斷,可以排除轉載的重復內容。
確保結果的唯一性。
此項功能還有一個附屬功能:“相似文章列表”的輸出。默認的采集結果中,會輸出相似文章的ID列表,轉換后,可以附屬在文章的后面,作為“延伸閱讀”使用。
在此功能的基礎上,熊貓新增了對文章摘要的自動生成功能。依據文章的內容,自動智能挑選最合適的摘要描述文字。