Los mejores complementos de WordPress Scraper: ¿cómo extraer contenido automáticamente?

Publicado: 2021-02-09

Si desea crear un sitio de comparación de precios o una tienda de dropshipping, los complementos de WordPress scraper pueden ser muy útiles. El web scraping consiste en recopilar información de la web. Luego, esa información se organiza o importa.

Algunas personas consideran que raspar es una actividad poco ética o cuestionable . En realidad, el web scraping puede ayudarlo a estar al tanto de los cambios. Los sitios de comparación de precios pueden utilizar datos extraídos para proporcionar a los visitantes la información más precisa disponible.

Hay muchos complementos de raspado de WordPress disponibles. En esta publicación, mencionaré algunos de los mejores complementos de rastreador de contenido de WordPress y sus características para que pueda elegir la herramienta adecuada para sus necesidades.

Tabla de contenido

Los mejores complementos de WordPress Scraper

Estos son algunos de los mejores complementos de raspado de contenido de WordPress que puede usar. Aunque son opciones de pago, todas están repletas de funciones útiles.

Octolooks raspaduras

Octolooks Scrapes es el rastreador de contenido más avanzado y el plugin scraper de WordPress con diferencia. Utiliza un selector visual para eliminar contenido de cualquier sitio automáticamente. Para que funcione, debe hacer coincidir el selector visual con el campo correspondiente de WordPress en la página de destino. No necesita ningún conocimiento o experiencia en programación.

La interfaz fácil de usar del complemento se creó para brindar la mejor experiencia de usuario posible. La configuración se logra en solo unos pocos pasos básicos. Puede dejarlo en segundo plano y la información se extraerá de los sitios web de origen.

Puede crear nuevas tareas para rastrear o utilizar la configuración predeterminada. También puede utilizar este complemento como complemento agregador de RSS de WordPress.

Scrapes completa automáticamente todos los campos admitidos. El plugin scraper de Octolooks WordPress hará coincidir automáticamente la siguiente página, la imagen destacada, el contenido y otra información importante con los campos correspondientes de los sitios web de origen.

Complemento de rastreador de contenido para WordPress.

Puede usar la opción de plantilla para personalizar el diseño de las publicaciones y elegir en qué orden aparecerá la información que recopile en su sitio web.

La función de búsqueda y reemplazo de expresiones regulares puede eliminar ciertas palabras o frases del texto raspado. También puede usar sus propias palabras para reemplazarlas. No hay límites para la cantidad de reglas que puede ejecutar.

Se pueden ejecutar operaciones de resta, suma, división, multiplicación y otras operaciones matemáticas . Este complemento de rastreador de contenido de WordPress puede crear nuevas fórmulas y combinar números en diferentes campos personalizados.

Yandex Translate, DeepL Translate, Bing Microsoft Translate o Google Translate pueden traducir automáticamente contenido extraído . O puede traducir el sitio de WordPress automáticamente utilizando complementos como Weglot (consulte la revisión de Weglot) y WPML (consulte la revisión de WPML).

Puede usar uno de los complementos de spinner automático de WordPress para cambiar el contenido raspado o dejar que un servicio de spinner de terceros como WordAi (consulte la revisión de WordAi) y Spin Rewriter (consulte la revisión de Spin Rewriter) haga el trabajo por usted.

La información extraída de los sitios web de origen se puede filtrar para garantizar que cumpla con las reglas establecidas. Supervise el contenido para asegurarse de que pase correctamente de los filtros a su sitio.

El soporte de campos personalizados y el tipo de publicación personalizada de su tienda WooCommerce se pueden usar para extraer contenido en forma de productos.

Importador externo Pro

El complemento External Importer Pro le permite extraer datos de productos de sitios web de comercio electrónico e importarlos al sitio de WooCommerce. No se necesita acceso a API, feeds CSV o XML.

El complemento extrae datos completos del producto directamente de los sitios de las tiendas. Todo lo que necesita hacer es ingresar la lista específica o la URL del producto. No hay que lidiar con archivos CSV voluminosos ni acceso a la API . La disponibilidad y los precios de los productos se actualizan automáticamente . Puede administrar todos los aspectos de la información importada.

Ejemplo de importación de lista de productos de importadores externos.

Su IDS de afiliado existente se usará automáticamente (si los agregó a través de las opciones de configuración) al crear enlaces de afiliados. Incluso puede establecer márgenes de productos de envío directo si desea importar productos con fines de envío directo.

Características:

  • Sincronización automática : la información sobre precios y disponibilidad del producto se actualiza automáticamente. Cualquier producto que esté actualmente agotado se puede eliminar automáticamente. Las actualizaciones se programan en segundo plano para que no interfieran con otras operaciones.
  • Importación automática : una vez que aparezcan nuevos productos en la página de listado del sitio de destino, también se importarán automáticamente a su sitio web. Siempre tendrás los productos más actualizados en tu tienda.
  • Productos ilimitados : la capacidad de importar tantos productos como desee. Puede importar elementos ilimitados desde tantos sitios de tiendas en línea como necesite.
  • Evite el bloqueo : el complemento leerá y cumplirá las sesiones de cookies, las cuotas de consultas diarias, los intervalos de consultas aleatorias, los encabezados de los navegadores reales, las reglas de robots.txt, la rotación de agentes de usuario, la limitación de solicitudes, etc., para que no obtenga obstruido.
  • Utilice redes de afiliados : utilice enlaces profundos o cámbielos dinámicamente para generar enlaces de afiliados.
  • Funciones de envío directo : puede crear una tienda de envío directo y los artículos se pueden agregar como productos "simples" de WooCommerce. Se pueden establecer reglas flexibles para los márgenes de precios.
  • Atributos locales y globales : puede determinar las especificaciones del producto asignadas como atributos globales (o taxonomías). Luego puede implementar varios filtros y widgets del catálogo de WooCommerce.
  • Imágenes externas por URL : la capacidad de mostrar imágenes externas sin guardarlas en una biblioteca de medios local. Los sitios de origen externos se pueden extraer para extraer las galerías e imágenes destacadas que desea mostrar en su sitio. Esto reducirá en gran medida la cantidad de almacenamiento en el disco duro de su servidor.
  • Categorías dinámicas : los productos con rutas de categoría extraídas se importarán automáticamente a la categoría correspondiente.

Para obtener más información sobre este complemento de rastreador de contenido para WordPress, puede consultar mi revisión de External Importer Pro.

Rastreador de contenido de WP

El complemento WP Content Crawler puede extraer información automáticamente de casi cualquier sitio. Utiliza selectores CSS para buscar contenido. Utiliza la herramienta Visual Inspector que simplifica la búsqueda de selectores CSS haciendo clic en los elementos respectivos en los sitios de destino.

Complemento de rastreador de contenido de WordPress.

Características:

  • Inspector visual : al hacer clic en un elemento, se identificará el selector de CSS para ese elemento. También puede encontrar selectores CSS alternativos que podrían usarse. No tiene que salir de su panel de administración para realizar estas tareas.
  • Rastrear publicaciones (raspar, capturar y guardar): una vez que se hayan definido las URL de las publicaciones, este rastreador de contenido de WordPress las rastreará automáticamente en segundo plano. Esto ocurrirá después de que se configuren los ajustes.
  • Volver a rastrear (actualizar) publicaciones: las publicaciones se pueden volver a rastrear automáticamente para garantizar que tenga el contenido más actualizado. Puede optar por ignorar las publicaciones más antiguas, seleccionar su intervalo de actualización y limitar la cantidad de veces que se puede actualizar una publicación en particular.
  • Plantillas de contenido : los códigos abreviados se pueden usar para crear una galería, un elemento de lista, un título, contenido de publicación y plantillas de extractos. Puede utilizar el cuadro de opciones para crear plantillas para todos los valores del selector de CSS.
  • Publicaciones paginadas: las publicaciones paginadas también se pueden guardar. Ya no tienes que limitar tus búsquedas a publicaciones de una sola página.
  • Configuración general personalizada para cada sitio web: se pueden establecer configuraciones generales personalizadas para cada publicación.
  • Guardar todas las imágenes : puede guardar todas las imágenes en el contenido de la publicación.
  • Guardar imágenes como una galería : las imágenes que se encuentran en una página de destino se pueden guardar como una galería.
  • Opciones de proxy : si su IP no tiene acceso a un sitio en particular, puede usar uno o más proxies para extraer información de los sitios de destino.
  • Traducción automática : la API de Amazon Translate, la API de traducción de Google Cloud, la API de texto de Microsoft Translator o la API de Yandex Translate se pueden utilizar para traducir las publicaciones automáticamente.
  • Giro automático : el giro puede reescribir el contenido rastreado automáticamente. Esto puede ayudar a aumentar su clasificación en los motores de búsqueda. El complemento ofrece integración con servicios pagos como Turkce Spin API y Spin Rewriter API.
  • Guarde los productos de WooCommerce : se pueden guardar atributos, opciones avanzadas, inventario, envío y precios de productos. Los elementos se pueden guardar como productos externos o simples. También puede definir elementos como virtuales o crear una opción de archivo descargable.
  • Expresiones regulares: las expresiones regulares se pueden especificar en las opciones de "buscar-reemplazar". Esto hace que sea más fácil encontrar y reemplazar cualquier cosa. También se pueden implementar modificadores y delimitadores para refinar aún más las búsquedas.
  • Guardar atributos "alt" y "título" : todos los atributos "título" y "alt" se recuperan automáticamente del sitio de destino al guardar imágenes. A continuación, esos atributos se asignan a las respectivas imágenes guardadas. Se pueden crear plantillas para alinearse con sus estrategias de optimización de motores de búsqueda.
  • Herramienta de rastreo manual : puede ingresar varias URL para guardar más de una publicación a la vez utilizando la utilidad de rastreo manual. Las URL de categoría también se pueden ingresar para que la herramienta obtenga las URL de publicación adecuadas. Puede configurar el rastreador para rastrear diferentes publicaciones simultáneamente.

Scraper - Complemento de rastreador de contenido para WordPress

El complemento Scraper Content Crawler para WordPress es un complemento que copia automáticamente el contenido y la publicación de cualquier sitio. Lleva la creación de contenido a otro nivel con sus características y funciones únicas.

Complemento de raspador de contenido de WordPress.

Características:

  • Se puede raspar cualquier sitio web : el uso de los métodos Regex y Xpath significa que puede raspar cualquier sitio que desee.
  • Puede raspar atributos : Scraper también puede recuperar atributos de elementos. Eso significa que puede obtener enlaces, fuentes de imágenes, fuentes de video.
  • Imagen destacada : cualquier imagen se puede extraer y establecer como imagen destacada.
  • Content spinner : el complemento AI Spinner es totalmente compatible. Puede utilizar este complemento para crear contenido único.
  • Traducción de idioma : el raspador detectará automáticamente el contenido, que luego se puede traducir al idioma que prefiera.
  • Imágenes de la galería : se puede analizar cualquier imagen. Puede utilizar esas imágenes para crear galerías de imágenes.
  • Productos WooCommerce : todas las etiquetas WooCommerce también son compatibles. Esto simplifica la adición de productos WooCommerce a su tienda.
  • Cálculos matemáticos: las funciones matemáticas pueden restar, sumar, dividir o multiplicar números. Esto puede resultar útil en los cálculos de precios.
  • Programar tareas : puede asignar tareas para que se realicen en varios intervalos.
  • Eliminar enlaces : elimina los enlaces del contenido de la publicación original.
  • Compatibilidad con proxy : puede utilizar proxies con fines de raspado.

Raspador multisitio Crawlomatic

El plugin Crawlomatic Multisite Scraper es un plugin de autoblogging de generación de publicaciones que rastrea y raspa sitios web. No necesita API para extraer contenido.

Este complemento rastreará la URL (buscará todos los enlaces en una página), visitará y extraerá el contenido de cada URL rastreada. El proceso de rastreo es personalizable . Usted establece la profundidad de rastreo, la frecuencia de rastreo, el recuento máximo de artículos rastreados, rastrear solo enlaces con una clase o ID específica, etc.

Complemento de raspador web de WordPress.

Puede extraer contenido de casi todos los sitios. Si el contenido se carga usando JavaScript, el complemento se puede combinar con PhantomJS para raspar el contenido generado por JavaScript.

Características:

  • El rastreo de mapas del sitio es totalmente compatible.
  • La compatibilidad con el selector de contenido visual.
  • Puede paginar el rastreo del sitio. El rastreo de artículos se reanudará en la página siguiente del sitio de destino.
  • Puede importar precios para todos los productos rastreados (para sitios compatibles con WooCommerce). Los precios de envío directo se ajustan automáticamente en consecuencia.
  • Puede aumentar los precios de los artículos importados en un número predefinido. También puede multiplicar la cantidad por un número determinado, que es una opción útil para los dropshippers.
  • Los proxies se pueden utilizar para rastrear.
  • Si no puede dirigir el rastreo (si está bloqueado, por ejemplo), siempre puede rastrear la página en particular desde la caché de Google.
  • El Traductor de Google es compatible. Puede elegir el idioma en el que desea que aparezcan los artículos de su sitio.
  • Los hilanderos de texto también son totalmente compatibles. Puede cambiar el texto que se genera automáticamente. Las palabras se pueden cambiar con sus sinónimos si lo prefiere. Se pueden usar SpinRewriter, The Best Spinner, TurkceSpin, WordAI y otros.
  • El rastreo y rastreo de sitios se puede configurar para respetar los encabezados HTML de los robots de las páginas raspadas y los archivos robots.txt de los sitios raspados.
  • Las etiquetas y las categorías de publicaciones de productos se pueden crear automáticamente.
  • El rastreo y el rastreo de sitios web se pueden usar para incrustar videos de DailyMotion, Flickr, IGN, Ustream.tv, Vimeo o YouTube.

WP Scraper Pro

El complemento WP Scraper Pro puede extraer contenido de diferentes sitios web que luego puede importar a sus publicaciones y páginas de WordPress. La función de raspado múltiple le permite raspar contenido de cientos de sitios simultáneamente. Esto se puede lograr en su sitio de WordPress utilizando la interfaz visual.

Las interfaces visuales lo ayudan a seleccionar datos mediante una configuración predeterminada o un solo raspado. Para seleccionar contenido, resalte y seleccione o anule la selección de la información que desea importar. Esto puede eliminar cualquier bloque de datos que sea irrelevante o innecesario.

Las categorías, imágenes, etiquetas y títulos se automatizarán repetidamente según las reglas que asigne o una preselección. También recuperará todas las URL de los sitios de destino que seleccione.

Complemento automático de WordPress

El complemento automático de WordPress es una herramienta conveniente que puede publicar automáticamente en WordPress desde casi cualquier sitio. Hay muchas selecciones de importación.

Además de los artículos habituales, también puede importar el siguiente contenido: productos de Amazon y Walmart, videos de YouTube, Vimeo y DailyMotion, imágenes de Flickr e Instagram, subastas de eBay, publicaciones en redes sociales (tweets, pines, publicaciones de Reddit y Facebook), clasificados de Craigslist, contenido de iTunes (como canciones, podcasts, aplicaciones, libros electrónicos), canciones de SoundCloud e incluso elementos de Envato.

El complemento automático de Wordpress publica automáticamente desde casi cualquier sitio web en WordPress.

Puede seleccionar la fuente del contenido y aplicar opciones de filtro por etiqueta, autor y categoría. Esto significa que no se importará toda la información de destino.

Puede elegir las imágenes, el formato, la plantilla de publicación, el tipo y el estado que obtendrá el complemento. También hay opciones avanzadas de traducción y reescritura . Incluso puede reemplazar automáticamente ciertas palabras que no desea que se muestren en su sitio.

Puede establecer el estado de las publicaciones en publicadas o en borrador. Se pueden excluir determinadas frases o palabras. También puede eliminar todos los enlaces antes de publicar una publicación. Las imágenes destacadas se pueden configurar automáticamente.

La configuración se puede modificar, por lo que se omiten los títulos duplicados, las publicaciones que no estén en inglés y las publicaciones sin imágenes. Los campos personalizados se agregan automáticamente a las publicaciones y se admiten varios sitios.

Robot de WP

WP Robot es un complemento de autoblogueo y curación de contenido . Le permite crear automáticamente publicaciones de blog de WordPress extrayendo contenido de otros sitios. Gotea información relacionada con su especialidad o nicho particular. Esto asegura que siempre tendrá el contenido más actualizado.

opciones de fuente de robot wp
Cuando habilita la fuente de contenido, su pestaña de configuración aparecerá arriba.

Se admiten más de 30 fuentes de contenido y cada fuente de contenido está automatizada. Se pueden utilizar en cualquier combinación que prefiera para encontrar contenido de calidad para su sitio web. Según lo que necesite, hay muchas formas en las que esta herramienta puede ayudarlo.

WP Robot puede extraer contenido de sitios de comercio electrónico si está buscando publicar productos de Amazon, AliExpress, Etsy, etc. El complemento puede extraer imágenes de Flickr y Pixabay, canciones de iTunes, YouTube, videos de Vimeo, etc.

Commission Junction y Linkshare son algunas de las redes afiliadas que admite WP Robot, y puede publicar ofertas de ellas automáticamente. El contenido de la fuente RSS también se puede agregar a su sitio. Si desea más de lo que proporcionan los módulos existentes, esto puede brindarle cierta libertad adicional. Para obtener más información, asegúrese de consultar mi revisión de WP Robot.

Conclusión de los complementos de WordPress Scraper

El raspado web (también conocido como recolección web, extracción de datos web y raspado de pantalla) adquiere una gran cantidad de información de varios sitios. Luego, estos datos se guardan en otro sitio web o en una base de datos. Muchas soluciones de web scraping requieren conocimientos adicionales y pueden resultar bastante complicadas. Usando los plugins de raspador de WordPress mencionados, el raspado de contenido es muy fácil.

Si desea crear una tienda afiliada, un sitio de comparación de precios, un sitio de ofertas o una tienda de dropshipping, deberá agregar productos a su sitio. Es una mejor manera de automatizar ese proceso en lugar de agregar productos manualmente.

Para ello, necesitará un buen complemento para importar productos . Si bien hay muchas soluciones disponibles, la mayoría de ellas requieren que tenga un feed o API que se utilizará para importar productos.

Pero, ¿y si no tienes un feed? ¿Entonces que? ¿Cómo importar productos al sitio si no tiene acceso a los feeds? En este caso, necesitará un complemento de raspador web de WordPress.