A proxy pool that scrapes free anonymous proxies and maintains its proxies' availability.
Python
待做:
- 實現Web頁面互動、以及REST API互動(GET參數)
- CUI互動介面上實現代理驗證線程數設定
- 填寫工具說明
- 將爬蟲做成可拓展的config模式,並開發更多代理爬蟲
- 多步網絡連接測試,僅一次連接失敗就删除的實現較不妥
- 檢測X-Forwarded-For的HTTP頭
- 資料庫在同步操作的時候會上鎖,影響效率,應想辦法優化
12月23日
- 將Web服務器開/關選項添加到了CUI互動介面上
12月18日
- 實現命令列互動覈心框架
- 在命令列介面添加了LOGO
- 修復了線程共亯變數的Bug
12月17日
- 將爬蟲模塊綜合為多執行緒,一發制動全部
- 修復了requests代理全部失敗的Bug(大小寫)
- 新增並優化了驗證代理時的各類异常捕捉機制
- 實現爬蟲與驗證程式的一體化管道(直接通過資訊池模塊啟動)。
- 新增資訊池模塊,負責啟動代理&爬蟲模塊,以及實时獲取各模塊狀態並提供命令列互動
- 優化了等待時間以提高驗證效率
12月16日
- 將資料庫記錄定義為ip、埠、協定,必須滿足全部三項才可指定(比如删除)一條記錄
將資料庫記錄定義為ip、埠、協定,必須滿足全部三項才可指定(比如删除)一條記錄
- 實現了代理驗證的多執行緒特性
實現了代理驗證的多執行緒特性
- 優化了代理模塊的部分邏輯關係
優化了代理模塊的部分邏輯關係
- 設計了爬蟲管理模塊的運行模式:單檔案多函數,每個函數為一個爬蟲,運行時進行多執行緒爬取
設計了爬蟲管理模塊的運行模式:單檔案多函數,每個函數為一個爬蟲,運行時進行多執行緒爬取
(中間的這段時間我去折騰機器學習了。。。)
12月3日
- 重新設計了整個高匿代理池項目的組成模塊。
- 完成資料庫模塊的Add功能,改進Sqlite命令的去重
- 完成資料庫模塊的Delete及Fetch_all功能
- 完成代理庫模塊的check功能,暫時先使用icanhazip進行匿名檢測,去除了多餘的異常處理。
- 待學習:模塊之間溝通的具體程式碼實現,是直接在模塊內調用其他模塊的程式碼還是在主程序中為各模塊進行互動?