最佳 WordPress Scraper 插件——如何自動抓取內容?

已發表: 2021-02-09

如果您想創建一個價格比較網站或直銷店,WordPress 爬蟲插件會非常有用。 網絡抓取包括從網絡上收集信息。 然後組織或導入該信息。

有些人認為刮痧是一種不道德或有問題的活動。 實際上,網絡抓取可以幫助您掌握變化。 價格比較網站可以使用抓取的數據為訪問者提供最準確的可用信息。

有很多 WordPress抓取插件可用。 在這篇文章中,我將提及一些最好的 WordPress 內容爬蟲插件及其功能,以便您可以根據需要選擇合適的工具。

目錄

最好的 WordPress 爬蟲插件

以下是您可以使用的一些最好的 WordPress 內容抓取插件。 雖然它們是付費選項,但它們都包含有用的功能。

Octolooks 擦傷

Octolooks Scrapes 是迄今為止最先進的內容爬蟲和 WordPress 爬蟲插件。 它使用視覺選擇器自動從任何站點中刪除內容。 要工作,您需要將視覺選擇器與目標頁面上的相應 WordPress 字段進行匹配。 您不需要任何編程知識或專業知識。

該插件易於使用的界面旨在提供最佳的用戶體驗。 配置只需幾個基本步驟即可完成。 您可以將其保留在後台,信息將從源網站中提取。

您可以創建新的爬網任務或使用默認設置。 您還可以將此插件用作 WordPress RSS聚合器插件

Scrapes 會自動填寫所有支持的字段。 Octolooks WordPress 爬蟲插件會自動將下一頁、特色圖片、內容和其他重要信息與源網站的相應字段進行匹配。

WordPress 的內容爬蟲插件。

您可以使用模板選項來個性化帖子佈局,並選擇您抓取的信息在您的網站上顯示的順序。

正則表達式查找和替換功能可以從抓取的文本中刪除某些單詞或短語。 你也可以用你自己的話來代替它們。 您可以運行的規則數量沒有限制。

可以運行減法、加法、除法、乘法和其他數學運算。 這個 WordPress 內容爬蟲插件可以創建新公式並組合不同自定義字段中的數字。

Yandex Translate、DeepL Translate、Bing Microsoft Translate 或 Google Translate 可以自動翻譯抓取的內容。 或者您可以使用 Weglot(查看 Weglot 評論)和 WPML(查看 WPML 評論)等插件自動翻譯 WordPress 網站。

您可以使用 WordPress 自動微調器插件之一來更改抓取的內容,或者讓第三方微調器服務,如 WordAi(請參閱 WordAi 評論)和 Spin Rewriter(請參閱 Spin Rewriter 評論)為您完成工作。

可以過濾從源網站抓取的信息,以確保它符合設定的規則。 監控內容以確保它成功地從過濾器傳遞到您的站點。

WooCommerce 商店中的自定義字段支持和自定義帖子類型可用於以產品的形式抓取內容。

外部進口商專業版

External Importer Pro 插件允許您從電子商務網站提取產品數據並將其導入 WooCommerce 網站。 不需要 API 訪問、CSV 提要或 XML。

該插件直接從商店站點提取完整的產品數據。 您需要做的就是輸入特定的列表或產品 URL。 無需處理龐大的 CSV 文件或 API 訪問權限。 產品可用性和價格會自動更新。 您可以管理導入信息的各個方面。

外部進口商產品列表進口示例。

創建附屬鏈接時,將自動使用您現有的附屬 IDS(如果您通過設置選項添加它們)。 如果您想為直銷目的導入產品,您甚至可以設置直銷產品利潤率。

特徵:

  • 自動同步– 自動更新產品可用性和定價信息。 任何當前缺貨的產品都可以自動刪除。 更新在後台安排,因此它們不會干擾任何其他操作。
  • 自動導入- 一旦新產品出現在目標站點的列表頁面上,它們也會自動導入您的網站。 您的商店中將始終擁有最新的產品。
  • 無限產品- 能夠導入任意數量的產品。 您可以根據需要從任意數量的在線商店站點導入無限量的商品。
  • 避免被屏蔽——插件會讀取並遵守 cookie 會話、每日查詢配額、隨機查詢間隔、真實瀏覽器的標題、robots.txt 規則、用戶代理輪換、請求限制等,這樣你就不會得到阻止。
  • 使用會員網絡– 使用深層鏈接或動態更改它們以生成會員鏈接。
  • Dropshipping 功能——您可以創建一個直銷商店,並且可以將商品添加為“簡單”的 WooCommerce 產品。 可以為價格加價設置靈活的規則。
  • 本地和全局屬性——您可以確定指定為全局屬性(或分類法)的產品規格。 然後,您可以實施各種 WooCommerce 目錄過濾器和小部件。
  • 通過 URL顯示外部圖像 – 無需將外部圖像保存到本地媒體庫即可顯示外部圖像的能力。 可以抓取外部源站點以提取要在站點上顯示的精選畫廊和圖像。 這將大大減少服務器上的硬盤驅動器存儲量。
  • 動態類別- 提取類別路徑的產品將自動導入到相應的類別。

有關此 WordPress 內容爬蟲插件的更多信息,您可以查看我的 External Importer Pro 評論。

WP 內容爬蟲

WP Content Crawler 插件可以自動從幾乎任何站點中提取信息。 它使用CSS 選擇器來查找內容。 它使用 Visual Inspector 工具,通過單擊目標站點上的相應元素來簡化查找 CSS 選擇器的過程。

WordPress 內容爬蟲插件。

特徵:

  • Visual Inspector – 單擊一個元素將識別該元素的 CSS 選擇器。 您還可以找到可以使用的替代 CSS 選擇器。 您無需離開管理面板即可完成這些任務。
  • 抓取帖子(抓取、抓取和保存)– 一旦定義了帖子 URL,此 WordPress 內容抓取工具將在後台自動抓取它們。 這將在配置設置後發生。
  • 重新抓取(更新)帖子 – 可以自動重新抓取帖子,以確保您擁有最新的內容。 您可以選擇忽略較舊的帖子,選擇更新間隔,並限制特定帖子的更新次數。
  • 內容模板– 短代碼可用於創建圖庫、列表項、標題、帖子內容和摘錄模板。 您可以使用選項框為所有 CSS 選擇器值創建模板。
  • 分頁帖子- 也可以保存分頁帖子。 您不必再將搜索限制為單頁帖子。
  • 每個網站的自定義設置-自定義常規設置可以對每個崗位進行設置。
  • 保存所有圖片- 您可以保存帖子內容中的所有圖片。
  • 將圖像另存為圖庫- 在目標頁面上找到的圖像可以保存為圖庫。
  • 代理選項- 如果您的 IP 無法訪問特定站點,您可以使用一個或多個代理從目標站點提取信息。
  • 自動翻譯– Amazon Translate API、Google Cloud Translation API、Microsoft Translator Text API 或 Yandex Translate API 可用於自動翻譯帖子。
  • 自動旋轉- 旋轉可以自動重寫抓取的內容。 這有助於提高您的搜索引擎排名。 該插件提供與 Turkce Spin API 和 Spin Rewriter API 等付費服務的集成。
  • 保存 WooCommerce 產品- 可以保存屬性、高級選項、庫存、運輸和產品價格。 項目可以保存為外部或簡單的產品。 您還可以將項目定義為虛擬項目或創建可下載文件選項。
  • 正則表達式- 可以在“查找-替換”選項中指定正則表達式。 這樣可以更輕鬆地查找和替換任何內容。 還可以實施修飾符和分隔符以進一步細化搜索。
  • 保存“alt”和“title”屬性——當您保存圖像時,所有“title”和“alt”屬性都會從目標站點自動檢索。 然後將這些屬性分配給各自保存的圖像。 可以創建模板以與您的搜索引擎優化策略保持一致。
  • 手動爬網工具- 您可以使用手動爬網實用程序輸入各種 URL 以一次保存多個帖子。 也可以為該工具輸入類別 URL,以獲得適當的帖子 URL。 您可以設置爬蟲同時爬取不同的帖子。

Scraper – WordPress 內容爬蟲插件

適用於 WordPress 的 Scraper Content Crawler 插件是一個自動複製內容並從任何站點發布的插件。 它以其獨特的特性和功能將內容創建提升到另一個層次。

WordPress 內容抓取插件。

特徵:

  • 任何網站都可以被抓取——使用 Regex 和 Xpath 方法意味著你可以抓取任何你想要的網站。
  • 您可以抓取屬性——Scraper 還可以檢索元素屬性。 這意味著您可以獲得鏈接、圖像源、視頻源。
  • 特色圖片– 可以提取任何圖片並將其設置為特色圖片。
  • 內容微調器– 完全支持 AI Spinner 插件。 您可以使用此插件來創建獨特的內容。
  • 語言翻譯——刮刀將自動檢測內容,然後可以將其翻譯成您喜歡的任何語言。
  • 圖庫圖片——任何圖片都可以解析。 您可以使用這些圖像來創建圖像庫。
  • WooCommerce 產品– 還支持所有 WooCommerce 標籤。 這簡化了將 WooCommerce 產品添加到您的商店的過程。
  • 數學計算——數學函數可以減、加、除或乘數字。 這在價格計算中可能會派上用場。
  • 計劃任務- 您可以分配要在不同時間間隔執行的任務。
  • 剝離鏈接——從原始帖子內容中剝離鏈接。
  • 代理支持- 您可以使用代理進行抓取。

Crawlomatic Multisite Scraper

Crawlomatic Multisite Scraper 插件是一個網站爬行和抓取,帖子生成器自動博客插件。 您不需要 API 來抓取內容。

該插件將抓取 URL (它將搜索頁面上的所有鏈接),訪問並從每個抓取的 URL 中提取內容。 抓取過程是可定制的。 您可以設置抓取深度、抓取速度、最大抓取文章數、只抓取特定類或 ID 的鏈接等。

WordPress 網絡爬蟲插件。

您幾乎可以從每個站點抓取內容。 如果內容是使用 JavaScript 加載的,該插件可以結合 PhantomJS 來抓取 JavaScript 生成的內容。

特徵:

  • 完全支持爬取站點地圖。
  • 視覺內容選擇器支持。
  • 您可以對站點爬行進行分頁。 文章抓取將在目標站點的下一頁恢復。
  • 您可以導入所有已抓取產品的價格(適用於 WooCommerce 兼容網站)。 直銷價格會相應地自動調整。
  • 您可以按預定義的數字提高進口商品的價格。 您還可以將數量乘以一個固定的數字,這對 dropshippers 來說是一個有用的選項。
  • 代理可用於爬行。
  • 如果您無法直接抓取(例如,如果您被阻止),您始終可以從 Google 緩存中抓取特定頁面。
  • 支持谷歌翻譯。 您可以選擇您希望網站文章顯示的語言。
  • 還完全支持文本微調器。 您可以更改自動生成的文本。 如果您願意,可以使用同義詞更改單詞。 可以使用 SpinRewriter、The Best Spinner、TurkceSpin、WordAI 等。
  • 站點抓取和抓取可以配置為尊重抓取頁面的機器人的 HTML 標頭和抓取站點的 robots.txt 文件。
  • 可以自動創建產品的標籤和帖子類別。
  • 網站抓取和抓取可用於嵌入 DailyMotion、Flickr、IGN、Ustream.tv、Vimeo 或 YouTube 視頻。

WP Scraper Pro

WP Scraper Pro 插件可以從不同的網站中提取內容,然後您可以將這些內容導入到您的 WordPress 帖子和頁面中。 多重抓取功能允許您同時從數百個站點抓取內容。 這可以使用可視化界面在您的 WordPress 網站上完成。

可視化界面可幫助您使用預先確定的設置或單次抓取來選擇數據。 要選擇內容,請突出顯示並選擇或取消選擇要導入的信息。 這可以消除任何不相關或不必要的數據塊。

類別、圖像、標籤和標題將根據您分配的規則或預選重複自動化。 它還將從您選擇的目標站點中檢索所有 URL。

WordPress 自動插件

WordPress 自動插件是一個方便的工具,可以從幾乎任何站點自動發佈到 WordPress 。 有很多進口選擇。

除了常見的文章,您還可以導入以下內容:亞馬遜和沃爾瑪產品、YouTube、Vimeo 和 DailyMotion 視頻、Flickr 和 Instagram 圖像、eBay 拍賣、社交媒體帖子(推文、圖釘、Reddit 和 Facebook 帖子)、來自Craigslist、iTunes 內容(例如歌曲、播客、應用程序、電子書)、SoundCloud 歌曲,甚至 Envato 項目。

Wordpress 自動插件幾乎可以自動將任何網站發佈到 WordPress。

您可以選擇內容源並按標籤、作者和類別應用過濾器選項。 這意味著並非所有目標信息都將被導入。

您可以選擇插件將獲取的圖像、格式、帖子模板、類型和狀態。 還有高級翻譯和重寫選項。 您甚至可以自動替換您不想在您的網站上顯示的某些詞。

您可以將帖子狀態設置為已發布或草稿。 可以排除某些短語或單詞。 您還可以在發布帖子之前刪除所有鏈接。 特色圖片可以自動設置。

可以更改設置,因此會跳過重複的標題、非英文帖子和沒有任何圖像的帖子。 自定義字段會自動添加到帖子中,並且支持多站點。

WP機器人

WP Robot 是一個自動博客和內容管理插件。 它允許您通過從其他站點抓取內容來自動創建 WordPress 博客文章。 它滴灌與您的特定專業或利基相關的信息。 這可確保您始終擁有最新的內容。

wp 機器人源選項
當您啟用內容源時,其設置選項卡將出現在上方。

支持超過30 個內容源,每個內容源都是自動化的。 它們可以以您喜歡的任何組合使用,以便為您的網站找到高質量的內容。 根據您的需要,此工具可以通過多種方式提供幫助。

如果您想發布來自 Amazon、AliExpress、Etsy 等的產品,WP Robot 可以從電子商務網站中提取內容。該插件可以從 Flickr 和 Pixabay 中提取圖像,從 iTunes、YouTube、Vimeo 視頻等中提取歌曲。

Commission Junction 和 Linkshare是 WP Robot 支持的一些附屬網絡,您可以從它們自動發布優惠。 RSS 提要內容也可以添加到您的站點。 如果您想要的比現有模塊提供的更多,這可以給您一些額外的自由。 有關更多信息,請務必查看我的 WP Robot 評論。

WordPress Scraper 插件結論

Web 抓取(也稱為 Web 收集、Web 數據提取和屏幕抓取)從各種站點獲取大量信息。 然後將此數據保存到另一個網站或數據庫。 許多網絡抓取解決方案需要額外的知識,並且可能相當複雜。 使用提到的 WordPress 抓取插件,內容抓取非常容易。

如果您想創建附屬商店、價格比較網站、交易網站或直銷店,您需要將產品添加到您的網站。 這是使該過程自動化而不是手動添加產品的更好方法。

為此,您需要一個好的插件來導入產品。 雖然有許多可用的解決方案,但其中大多數都要求您擁有用於導入產品的提要或 API。

但是如果你沒有飼料怎麼辦? 然後怎樣呢? 如果您無法訪問提要,如何將產品導入網站? 在這種情況下,您將需要一個 WordPress 網絡爬蟲插件。