最佳 WordPress Scraper 插件——如何自动抓取内容?

已发表: 2021-02-09

如果您想创建一个价格比较网站或直销店,WordPress 爬虫插件会非常有用。 网络抓取包括从网络上收集信息。 然后组织或导入该信息。

有些人认为刮痧是一种不道德或有问题的活动。 实际上,网络抓取可以帮助您掌握变化。 价格比较网站可以使用抓取的数据为访问者提供最准确的可用信息。

有很多 WordPress抓取插件可用。 在这篇文章中,我将提到一些最好的 WordPress 内容爬虫插件及其功能,以便您可以根据需要选择合适的工具。

目录

最好的 WordPress 爬虫插件

以下是您可以使用的一些最好的 WordPress 内容抓取插件。 虽然它们是付费选项,但它们都包含有用的功能。

Octolooks 擦伤

Octolooks Scrapes 是迄今为止最先进的内容爬虫和 WordPress 爬虫插件。 它使用视觉选择器自动从任何站点中删除内容。 要工作,您需要将视觉选择器与目标页面上的相应 WordPress 字段进行匹配。 您不需要任何编程知识或专业知识。

该插件易于使用的界面旨在提供最佳的用户体验。 配置只需几个基本步骤即可完成。 您可以将其保留在后台,信息将从源网站中提取。

您可以创建新的爬网任务或使用默认设置。 您还可以将此插件用作 WordPress RSS聚合器插件

Scrapes 会自动填写所有支持的字段。 Octolooks WordPress 爬虫插件会自动将下一页、特色图片、内容和其他重要信息与源网站的相应字段进行匹配。

WordPress 的内容爬虫插件。

您可以使用模板选项来个性化帖子布局,并选择您抓取的信息在您的网站上显示的顺序。

正则表达式查找和替换功能可以从抓取的文本中删除某些单词或短语。 你也可以用你自己的话来代替它们。 您可以运行的规则数量没有限制。

可以运行减法、加法、除法、乘法和其他数学运算。 这个 WordPress 内容爬虫插件可以创建新公式并组合不同自定义字段中的数字。

Yandex Translate、DeepL Translate、Bing Microsoft Translate 或 Google Translate 可以自动翻译抓取的内容。 或者您可以使用 Weglot(查看 Weglot 评论)和 WPML(查看 WPML 评论)等插件自动翻译 WordPress 网站。

您可以使用 WordPress 自动微调器插件之一来更改抓取的内容,或者让第三方微调器服务,如 WordAi(请参阅 WordAi 评论)和 Spin Rewriter(请参阅 Spin Rewriter 评论)为您完成工作。

可以过滤从源网站抓取的信息,以确保它符合设定的规则。 监控内容以确保它成功地从过滤器传递到您的站点。

WooCommerce 商店中的自定义字段支持和自定义帖子类型可用于以产品的形式抓取内容。

外部进口商专业版

External Importer Pro 插件允许您从电子商务网站提取产品数据并将其导入 WooCommerce 网站。 不需要 API 访问、CSV 提要或 XML。

该插件直接从商店站点提取完整的产品数据。 您需要做的就是输入特定的列表或产品 URL。 无需处理庞大的 CSV 文件或 API 访问权限。 产品可用性和价格会自动更新。 您可以管理导入信息的各个方面。

外部进口商产品列表进口示例。

创建附属链接时,将自动使用您现有的附属 IDS(如果您通过设置选项添加它们)。 如果您想为直销目的导入产品,您甚至可以设置直销产品利润率。

特征:

  • 自动同步– 自动更新产品可用性和定价信息。 任何当前缺货的产品都可以自动删除。 更新在后台安排,因此它们不会干扰任何其他操作。
  • 自动导入- 一旦新产品出现在目标站点的列表页面上,它们也会自动导入您的网站。 您的商店中将始终拥有最新的产品。
  • 无限产品- 能够导入任意数量的产品。 您可以根据需要从任意数量的在线商店站点导入无限量的商品。
  • 避免被屏蔽——插件会读取并遵守 cookie 会话、每日查询配额、随机查询间隔、真实浏览器的标题、robots.txt 规则、用户代理轮换、请求限制等,这样你就不会得到阻止。
  • 使用会员网络– 使用深层链接或动态更改它们以生成会员链接。
  • Dropshipping 功能——您可以创建一个直销商店,并且可以将商品添加为“简单”的 WooCommerce 产品。 可以为价格加价设置灵活的规则。
  • 本地和全局属性——您可以确定指定为全局属性(或分类法)的产品规格。 然后,您可以实施各种 WooCommerce 目录过滤器和小部件。
  • 通过 URL显示外部图像 – 无需将外部图像保存到本地媒体库即可显示外部图像的能力。 可以抓取外部源站点以提取要在站点上显示的精选画廊和图像。 这将大大减少服务器上的硬盘驱动器存储量。
  • 动态类别- 提取类别路径的产品将自动导入到相应的类别。

有关此 WordPress 内容爬虫插件的更多信息,您可以查看我的 External Importer Pro 评论。

WP 内容爬虫

WP Content Crawler 插件可以自动从几乎任何站点中提取信息。 它使用CSS 选择器来查找内容。 它使用 Visual Inspector 工具,通过单击目标站点上的相应元素来简化查找 CSS 选择器的过程。

WordPress 内容爬虫插件。

特征:

  • Visual Inspector – 单击一个元素将识别该元素的 CSS 选择器。 您还可以找到可以使用的替代 CSS 选择器。 您无需离开管理面板即可完成这些任务。
  • 抓取帖子(抓取、抓取和保存)– 一旦定义了帖子 URL,此 WordPress 内容抓取工具将在后台自动抓取它们。 这将在配置设置后发生。
  • 重新抓取(更新)帖子 – 可以自动重新抓取帖子,以确保您拥有最新的内容。 您可以选择忽略较旧的帖子,选择更新间隔,并限制特定帖子的更新次数。
  • 内容模板– 短代码可用于创建图库、列表项、标题、帖子内容和摘录模板。 您可以使用选项框为所有 CSS 选择器值创建模板。
  • 分页帖子- 也可以保存分页帖子。 您不必再将搜索限制为单页帖子。
  • 每个网站的自定义设置-自定义常规设置可以对每个岗位进行设置。
  • 保存所有图片- 您可以保存帖子内容中的所有图片。
  • 将图像另存为图库- 在目标页面上找到的图像可以保存为图库。
  • 代理选项- 如果您的 IP 无法访问特定站点,您可以使用一个或多个代理从目标站点提取信息。
  • 自动翻译– Amazon Translate API、Google Cloud Translation API、Microsoft Translator Text API 或 Yandex Translate API 可用于自动翻译帖子。
  • 自动旋转- 旋转可以自动重写抓取的内容。 这有助于提高您的搜索引擎排名。 该插件提供与 Turkce Spin API 和 Spin Rewriter API 等付费服务的集成。
  • 保存 WooCommerce 产品- 可以保存属性、高级选项、库存、运输和产品价格。 项目可以保存为外部或简单的产品。 您还可以将项目定义为虚拟项目或创建可下载文件选项。
  • 正则表达式- 可以在“查找-替换”选项中指定正则表达式。 这样可以更轻松地查找和替换任何内容。 还可以实施修饰符和分隔符以进一步细化搜索。
  • 保存“alt”和“title”属性——当您保存图像时,所有“title”和“alt”属性都会从目标站点自动检索。 然后将这些属性分配给各自保存的图像。 可以创建模板以与您的搜索引擎优化策略保持一致。
  • 手动爬网工具- 您可以使用手动爬网实用程序输入各种 URL 以一次保存多个帖子。 也可以为该工具输入类别 URL,以获得适当的帖子 URL。 您可以设置爬虫同时爬取不同的帖子。

Scraper – WordPress 内容爬虫插件

适用于 WordPress 的 Scraper Content Crawler 插件是一个自动复制内容并从任何站点发布的插件。 它以其独特的特性和功能将内容创建提升到另一个层次。

WordPress 内容抓取插件。

特征:

  • 任何网站都可以被抓取——使用 Regex 和 Xpath 方法意味着你可以抓取任何你想要的网站。
  • 您可以抓取属性——Scraper 还可以检索元素属性。 这意味着您可以获得链接、图像源、视频源。
  • 特色图片– 可以提取任何图片并将其设置为特色图片。
  • 内容微调器– 完全支持 AI Spinner 插件。 您可以使用此插件来创建独特的内容。
  • 语言翻译——刮刀将自动检测内容,然后可以将其翻译成您喜欢的任何语言。
  • 图库图片——任何图片都可以解析。 您可以使用这些图像来创建图像库。
  • WooCommerce 产品– 还支持所有 WooCommerce 标签。 这简化了将 WooCommerce 产品添加到您的商店的过程。
  • 数学计算——数学函数可以减、加、除或乘数字。 这在价格计算中可能会派上用场。
  • 计划任务- 您可以分配要在不同时间间隔执行的任务。
  • 剥离链接——从原始帖子内容中剥离链接。
  • 代理支持- 您可以使用代理进行抓取。

Crawlomatic Multisite Scraper

Crawlomatic Multisite Scraper 插件是一个网站爬行和抓取,帖子生成器自动博客插件。 您不需要 API 来抓取内容。

该插件将抓取 URL (它将搜索页面上的所有链接),访问并从每个抓取的 URL 中提取内容。 抓取过程是可定制的。 您可以设置抓取深度、抓取速度、最大抓取文章数、只抓取特定类或 ID 的链接等。

WordPress 网络爬虫插件。

您几乎可以从每个站点抓取内容。 如果内容是使用 JavaScript 加载的,该插件可以结合 PhantomJS 来抓取 JavaScript 生成的内容。

特征:

  • 完全支持爬取站点地图。
  • 视觉内容选择器支持。
  • 您可以对站点爬行进行分页。 文章抓取将在目标站点的下一页恢复。
  • 您可以导入所有已抓取产品的价格(适用于 WooCommerce 兼容网站)。 直销价格会相应地自动调整。
  • 您可以按预定义的数字提高进口商品的价格。 您还可以将数量乘以一个固定的数字,这对 dropshippers 来说是一个有用的选项。
  • 代理可用于爬行。
  • 如果您无法直接抓取(例如,如果您被阻止),您始终可以从 Google 缓存中抓取特定页面。
  • 支持谷歌翻译。 您可以选择您希望网站文章显示的语言。
  • 还完全支持文本微调器。 您可以更改自动生成的文本。 如果您愿意,可以使用同义词更改单词。 可以使用 SpinRewriter、The Best Spinner、TurkceSpin、WordAI 等。
  • 站点抓取和抓取可以配置为尊重抓取页面的机器人的 HTML 标头和抓取站点的 robots.txt 文件。
  • 可以自动创建产品的标签和帖子类别。
  • 网站抓取和抓取可用于嵌入 DailyMotion、Flickr、IGN、Ustream.tv、Vimeo 或 YouTube 视频。

WP Scraper Pro

WP Scraper Pro 插件可以从不同的网站中提取内容,然后您可以将这些内容导入到您的 WordPress 帖子和页面中。 多重抓取功能允许您同时从数百个站点抓取内容。 这可以使用可视化界面在您的 WordPress 网站上完成。

可视化界面可帮助您使用预先确定的设置或单次抓取来选择数据。 要选择内容,请突出显示并选择或取消选择要导入的信息。 这可以消除任何不相关或不必要的数据块。

类别、图像、标签和标题将根据您分配的规则或预选重复自动化。 它还将从您选择的目标站点中检索所有 URL。

WordPress 自动插件

WordPress 自动插件是一个方便的工具,可以从几乎任何站点自动发布到 WordPress 。 有很多进口选择。

除了通常的文章,您还可以导入以下内容:亚马逊和沃尔玛产品、YouTube、Vimeo 和 DailyMotion 视频、Flickr 和 Instagram 图像、eBay 拍卖、社交媒体帖子(推文、图钉、Reddit 和 Facebook 帖子)、来自Craigslist、iTunes 内容(例如歌曲、播客、应用程序、电子书)、SoundCloud 歌曲,甚至 Envato 项目。

Wordpress 自动插件几乎可以自动将任何网站发布到 WordPress。

您可以选择内容源并按标签、作者和类别应用过滤器选项。 这意味着并非所有目标信息都将被导入。

您可以选择插件将获取的图像、格式、帖子模板、类型和状态。 还有高级翻译和重写选项。 您甚至可以自动替换您不想在您的网站上显示的某些词。

您可以将帖子状态设置为已发布或草稿。 可以排除某些短语或单词。 您还可以在发布帖子之前删除所有链接。 特色图片可以自动设置。

可以更改设置,因此会跳过重复的标题、非英文帖子和没有任何图像的帖子。 自定义字段会自动添加到帖子中,并且支持多站点。

WP机器人

WP Robot 是一个自动博客和内容管理插件。 它允许您通过从其他站点抓取内容来自动创建 WordPress 博客文章。 它滴灌与您的特定专业或利基相关的信息。 这可确保您始终拥有最新的内容。

wp 机器人源选项
当您启用内容源时,其设置选项卡将出现在上方。

支持超过30 个内容源,每个内容源都是自动化的。 它们可以以您喜欢的任何组合使用,以便为您的网站找到高质量的内容。 根据您的需要,此工具可以通过多种方式提供帮助。

如果您想发布来自 Amazon、AliExpress、Etsy 等的产品,WP Robot 可以从电子商务网站中提取内容。该插件可以从 Flickr 和 Pixabay 中提取图像,从 iTunes、YouTube、Vimeo 视频等中提取歌曲。

Commission Junction 和 Linkshare是 WP Robot 支持的一些附属网络,您可以从它们自动发布优惠。 RSS 提要内容也可以添加到您的站点。 如果您想要的比现有模块提供的更多,这可以给您一些额外的自由。 有关更多信息,请务必查看我的 WP Robot 评论。

WordPress 爬虫插件结论

Web 抓取(也称为 Web 收集、Web 数据提取和屏幕抓取)从各种站点获取大量信息。 然后将此数据保存到另一个网站或数据库。 许多网络抓取解决方案需要额外的知识,并且可能相当复杂。 使用提到的 WordPress 抓取插件,内容抓取非常容易。

如果您想创建附属商店、价格比较网站、交易网站或直销店,您需要将产品添加到您的网站。 这是使该过程自动化而不是手动添加产品的更好方法。

为此,您需要一个好的插件来导入产品。 虽然有许多可用的解决方案,但其中大多数都要求您拥有用于导入产品的提要或 API。

但是如果你没有饲料怎么办? 然后怎样呢? 如果您无权访问提要,如何将产品导入网站? 在这种情况下,您将需要一个 WordPress 网络爬虫插件。