|
|
全方位的采集功能
面向對象采集,采集對象的內容可以是分散在多個頁面(模板頁面的深度嵌套訪問)
熊貓采集是面向對象的,一個采集對象可以擁有許多需要采集的子項屬性內容。這些子項屬性的內容允許分散在不同的頁面內,這些頁面可以是需要通過若干次鏈接才能到達的頁面。
此處所謂“對象”,可以理解為“(需要采集的數據的)數據集合 ”的意思。這個數據集合的內容和范圍由用戶根據實際需求自行決定,沒有特定的要求。也可以將該對象范疇囊括到“標題列表頁面”,這屬于變通使用的方法,在此不多做贅述。靈活的使用面向對象的方法,不僅可以實現很多復雜的采集需求,更可以使得采集設置過程更為簡單。
采集速度快
熊貓采集的采集速度是采集軟件中最快的(之一)。不使用落后低效的正則匹配技術。也不使用第三方內置瀏覽器訪問的技術。使用自己研發的解析引擎,實現對網頁源碼的仿瀏覽器解析。分解網頁可視化內容元素,在此基礎上進行機器學習、批量采集匹配。經實際測試,是傳統的正則匹配方式采集速度的2~5倍。是基于第三方內置瀏覽器采集速度的10~20倍。
結果數據完整度高
實際采集過程中,由于目標頁面存在豐富的內容頁面板式的情況,此時就需要使用熊貓獨有的“多模板功能”,才能實現完整的采集。同時,看起來頁面版面一致的情況下,也可能會存在因為頁面內部的少量差異而采集采集匹配失敗,此時就需要采集器具有智能容錯能力。智能容錯能力,是衡量一個采集器是否成熟的基本標志之一。熊貓追求的是采集結果100%的完整。包括有效頁面100%的采集,頁面中采集的內容100%的采集。只要設置恰當,不會出現采集結果遺漏的情況!挥行茇埐拍茏尳Y果如此完整。
JS解析的自動判斷識別
現在很多網頁都采用了ajax網頁內容動態生成技術。此時僅僅依靠網頁源碼,并不能獲取需要的有效內容。此時就需要對被采集的頁面執行JavaScript(JS)解析,獲取JS執行后的結果代碼。
熊貓支持對需要JS解析的頁面,執行JS解析,獲取JS解析后的實際內容。鑒于執行JS解析的速度效率很低,因此熊貓內置了智能判斷功能,自動檢查是否需要對被采集的頁面執行JS解析,如果不需要的,盡量不使用低效的JS解析模式。
多模板自動適應能力
實時幫助窗口
正文和回復內容同時采集的能力
分頁內容的輕松合并
支持各種類型的分頁模式,用戶只需要做兩步就可以實現分頁內容的合并:鼠標點選確認分頁鏈接所在,將需要分頁合并的字段項勾選上“分頁合并”項即可。如果頁面內具有重復子項存在,則能自動在分頁中尋找該重復子項,隱含自動進行分頁內容合并。
典型如上述的論壇例子,分頁頁面內的回復內容,可自動實現歸并,此時用戶只需要鼠標點選確認分頁鏈接所在即可。有些場合下,在論壇內容頁面的分頁中也會同時出現主體(主表)內容,此時系統會自動進行判斷,不會將主表內容當成重復子項的子表內容進行采集。
利用cookie方式模擬登錄網站
支持常見類型數據庫引擎。支持FTP上傳
無人值守自動定時運行
文字內容的“偽原創”修改。支持文章時間的提前