該采集系統(tǒng)有如下特點:
主流語言 - 采用php+mysql編寫而成,安裝對應(yīng)服務(wù)器即可。
完全開源 - 開源代碼,且代碼均有中文注釋,方便管理與學(xué)習(xí)交流。
規(guī)則自定義 - 可以自定義采集規(guī)則,可以采集大部分網(wǎng)站內(nèi)容。
數(shù)據(jù)修改 - 自定義修改規(guī)則,優(yōu)化數(shù)據(jù)內(nèi)容。
數(shù)據(jù)保存 - 數(shù)組形態(tài),系列化數(shù)據(jù)保存至文件或數(shù)據(jù)庫,方便上傳、調(diào)用。
圖片讀取 - 可以讀取內(nèi)容的圖片,并保持至本地。
編碼控制 - 轉(zhuǎn)換編碼,可以保存gb2312,gbk等編碼至utf-8。
標(biāo)簽清理 - 可以自定義保留的標(biāo)簽,清理掉不必要標(biāo)簽。
安全性能 - 通過密碼控制讀取,遠(yuǎn)程讀取亦安全。
操作簡單 - 一鍵讀取操作,可以按規(guī)則分組讀取,或指定規(guī)則id讀取,單一id讀取。
規(guī)則分組 - 按規(guī)則分組讀取數(shù)據(jù),及時更新采集數(shù)據(jù)。
自定義讀取 - 按自定義規(guī)則id讀取數(shù)據(jù),有效更及時。
JS讀取 - 運用js控制讀取時效,降低服務(wù)器負(fù)載。
超時控制 - 可設(shè)定頁面執(zhí)行時間, 減少timeout錯誤。
多次讀取 - 可設(shè)定對網(wǎng)頁多次讀取控制,可以更有效的讀取數(shù)據(jù)。
錯誤控制 - 如果多次出錯,可以停止讀取,減小服務(wù)器資源占用。
負(fù)載控制 - 多文件夾保存數(shù)據(jù),可以有效的解決多文件下服務(wù)器負(fù)載。
數(shù)據(jù)修改 - 不僅可以瀏覽數(shù)據(jù),而且可以對主體數(shù)據(jù)進(jìn)行修改。
規(guī)則分析 - 可以向其他人分享您的規(guī)則,讓更多人使用。
規(guī)則下載 - 下載分享規(guī)則,快速獲取需要的內(nèi)容。
您的評論需要經(jīng)過審核才能顯示
有用
有用
有用