此項功能是熊貓獨有的。
對于大型網站的綜合類欄目的內容頁面,往往都是版面種類豐富。(典型的如阿里巴巴、慧聰中的二級企業網站,多大門戶網站非新聞板塊等等)。此時如果是設置一個模板,是無法采集完整的。如果需要完整采集數據,就需要針對該板塊出現的不同頁面版面風格,分別建立一套自定義模板,這樣才有可能采集完整。
實際采集中,自始至終都是單一版面風格頁面的場合,越來越少,存在多版面的場合越來越多、越來越復雜,數據采集的完整性也就越來越困難。
熊貓獨有的多模板功能,可以針對實際需要,新增足夠多的模板,來確保采集結果數據的100%完整。采集結果數據的“完整度”,是衡量一個采集軟件成熟度的基本特征之一,但往往被忽視。
熊貓在采集運行時,會將所有定義的模板和采集目標頁面,做一個相似度的分析,并按相似度做一個排序。按相似度排序后的順序,逐個進行模板匹配,直到匹配成功。
如上圖所示,列表的右上方有個按鈕“模板均失敗時改用自動解析模式”。此功能是確保在意外遺漏的情況下,啟用系統的自動分析功能,來做一個最終的補救。