I migliori plugin WordPress Scraper – Come raschiare automaticamente i contenuti?
Pubblicato: 2021-02-09Se desideri creare un sito di confronto prezzi o un negozio dropshipping, i plugin di WordPress scraper possono essere molto utili. Il web scraping consiste nel raccogliere informazioni dal web. Tali informazioni vengono quindi organizzate o importate.
Alcune persone considerano il raschiare un'attività immorale o discutibile . In realtà, il web scraping può aiutarti a rimanere aggiornato sui cambiamenti. I siti di confronto dei prezzi possono utilizzare dati raschiati per fornire ai visitatori le informazioni più accurate disponibili.
Sono disponibili molti plug-in di scraping di WordPress. In questo post, menzionerò alcuni dei migliori plugin per il crawler di contenuti di WordPress e le loro funzionalità in modo che tu possa scegliere lo strumento giusto per le tue esigenze.
I migliori plugin per WordPress Scraper
Ecco alcuni dei migliori plugin per raschiare i contenuti di WordPress che puoi utilizzare. Sebbene siano opzioni a pagamento, sono tutte ricche di funzioni utili.
Graffi Octolooks
Octolooks Scrapes è di gran lunga il crawler di contenuti più avanzato e il plugin per scraper di WordPress. Utilizza un selettore visivo per eliminare automaticamente il contenuto da qualsiasi sito. Per funzionare, devi abbinare il selettore visivo con il campo WordPress corrispondente nella pagina di destinazione. Non hai bisogno di alcuna conoscenza o esperienza di programmazione.
L' interfaccia facile da usare del plugin è stata creata per fornire la migliore esperienza utente possibile. La configurazione viene eseguita in pochi passaggi di base. Puoi lasciarlo in background e le informazioni verranno estratte dai siti Web di origine.
Puoi creare nuove attività per la scansione o utilizzare le impostazioni predefinite. Puoi anche utilizzare questo plug-in come plug-in aggregatore RSS di WordPress.
Scrapes compila automaticamente tutti i campi supportati. Il plug-in Octolooks WordPress scraper abbinerà automaticamente la pagina successiva, l'immagine in primo piano, il contenuto e altre informazioni importanti ai campi corrispondenti dei siti Web di origine.
Puoi utilizzare l' opzione modello per personalizzare i layout dei post e scegliere in quale ordine le informazioni che raccogli verranno visualizzate sul tuo sito web.
La funzione Trova e sostituisci delle espressioni regolari può rimuovere determinate parole o frasi dal testo raschiato. Puoi anche usare parole tue per sostituirle. Non ci sono limiti al numero di regole che puoi eseguire.
È possibile eseguire sottrazioni, addizioni, divisioni, moltiplicazioni e altre operazioni matematiche . Questo plugin per il crawler di contenuti di WordPress può creare nuove formule e combinare numeri in diversi campi personalizzati.
Yandex Translate, DeepL Translate, Bing Microsoft Translate o Google Translate possono tradurre automaticamente i contenuti raschiati . Oppure puoi tradurre automaticamente il sito WordPress utilizzando plugin come Weglot (controlla la recensione di Weglot) e WPML (vedi la recensione di WPML).
Puoi utilizzare uno dei plug-in di spinner automatico di WordPress per modificare il contenuto raschiato o lasciare che il servizio di spinner di terze parti come WordAi (vedi la recensione di WordAi) e Spin Rewriter (controlla la recensione di Spin Rewriter) faccia il lavoro per te.
Le informazioni estratte dai siti Web di origine possono essere filtrate per garantire che soddisfino le regole impostate. Monitora il contenuto per assicurarti che passi con successo dai filtri al tuo sito.
Il supporto dei campi personalizzati e il tipo di post personalizzato dal tuo negozio WooCommerce possono essere utilizzati per raschiare contenuti sotto forma di prodotti.
Importatore esterno Pro
Il plug-in External Importer Pro consente di estrarre i dati dei prodotti dai siti Web di eCommerce e importarli nel sito WooCommerce. Non è necessario alcun accesso API, feed CSV o XML.
Il plugin estrae i dati di prodotto completi direttamente dai siti dei negozi. Tutto quello che devi fare è inserire l'elenco specifico o l'URL del prodotto. Non ci sono file CSV ingombranti o accesso API da gestire. Disponibilità e prezzi dei prodotti vengono aggiornati automaticamente . Puoi gestire ogni aspetto delle informazioni importate.
I tuoi IDS di affiliazione esistenti verranno utilizzati automaticamente (se li hai aggiunti tramite le opzioni di impostazione) durante la creazione dei link di affiliazione. Puoi anche impostare i margini dei prodotti dropshipping se desideri importare prodotti per scopi dropshipping.
Caratteristiche:
- Sincronizzazione automatica : le informazioni sulla disponibilità del prodotto e sui prezzi vengono aggiornate automaticamente. Tutti i prodotti che sono attualmente esauriti possono essere rimossi automaticamente. Gli aggiornamenti sono programmati in background in modo che non interferiscano con altre operazioni.
- Importazione automatica : una volta che i nuovi prodotti vengono visualizzati nella pagina di elenco del sito di destinazione, verranno automaticamente importati anche sul tuo sito web. Avrai sempre i prodotti più aggiornati nel tuo negozio.
- Prodotti illimitati : la possibilità di importare tutti i prodotti che desideri. Puoi importare articoli illimitati da tutti i siti di negozi online di cui hai bisogno.
- Evita di essere bloccato : il plug-in legge e rispetta le sessioni dei cookie, le quote di query giornaliere, gli intervalli di query casuali, le intestazioni dei browser reali, le regole robots.txt, la rotazione degli agenti utente, la limitazione delle richieste, ecc., in modo da non ottenere bloccato.
- Utilizza reti di affiliazione : utilizza i link diretti o modificali dinamicamente per generare link di affiliazione.
- Funzionalità di dropshipping : puoi creare un negozio dropshipping e gli articoli possono essere aggiunti come prodotti WooCommerce "semplici". È possibile impostare regole flessibili per i ricarichi di prezzo.
- Attributi locali e globali : puoi determinare le specifiche del prodotto assegnate come attributi globali (o tassonomie). Puoi quindi implementare vari filtri e widget del catalogo WooCommerce.
- Immagini esterne per URL : la possibilità di visualizzare immagini esterne senza salvarle in una libreria multimediale locale. I siti di origine esterni possono essere raschiati per estrarre le gallerie e le immagini in primo piano che desideri mostrare sul tuo sito. Ciò ridurrà notevolmente la quantità di spazio di archiviazione del disco rigido sul server.
- Categorie dinamiche : i prodotti con percorsi di categoria estratti verranno importati automaticamente nella categoria corrispondente.
Per ulteriori informazioni su questo plug-in di crawler di contenuti per WordPress, puoi controllare la mia recensione di External Importer Pro.
Crawler di contenuti WP
Il plug-in WP Content Crawler può estrarre automaticamente informazioni da quasi tutti i siti. Utilizza i selettori CSS per trovare il contenuto. Utilizza lo strumento Visual Inspector che semplifica la ricerca dei selettori CSS facendo clic sui rispettivi elementi nei siti di destinazione.
Caratteristiche:
- Ispettore visivo : fare clic su un elemento identificherà il selettore CSS per quell'elemento. Puoi anche trovare selettori CSS alternativi che potrebbero essere utilizzati. Non è necessario lasciare il pannello di amministrazione per eseguire queste attività.
- Scansiona i post (scrape, grab and save) – Una volta definiti gli URL dei post, questo crawler di contenuti di WordPress li eseguirà automaticamente in background. Ciò si verificherà dopo la configurazione delle impostazioni.
- Scansiona (aggiorna) i post: i post possono essere scansionati di nuovo automaticamente per assicurarti di avere i contenuti più aggiornati. Puoi scegliere di ignorare i post più vecchi, selezionare l'intervallo di aggiornamento e limitare il numero di volte in cui un determinato post può essere aggiornato.
- Modelli di contenuto : gli shortcode possono essere utilizzati per creare una galleria, un elemento dell'elenco, un titolo, un contenuto del post e modelli di estratti. È possibile utilizzare la casella delle opzioni per creare modelli per tutti i valori del selettore CSS.
- Post impaginati: anche i post impaginati possono essere salvati. Non devi più limitare le tue ricerche ai post di una sola pagina.
- Impostazioni generali personalizzate per ciascun sito Web: è possibile impostare impostazioni generali personalizzate per ogni post.
- Salva tutte le immagini : puoi salvare tutte le immagini nel contenuto del post.
- Salva immagini come galleria : le immagini trovate su una pagina di destinazione possono essere salvate come galleria.
- Opzioni proxy : se il tuo IP non ha accesso a un determinato sito, puoi utilizzare uno o più proxy per estrarre informazioni dai siti di destinazione.
- Traduzione automatica : l'API Amazon Translate, l'API Google Cloud Translation, l'API Microsoft Translator Text o l'API Yandex Translate possono essere utilizzate per tradurre automaticamente i post.
- Rotazione automatica: la rotazione può riscrivere automaticamente il contenuto sottoposto a scansione. Questo può aiutare ad aumentare il posizionamento nei motori di ricerca. Il plugin offre l'integrazione con servizi a pagamento come Turkce Spin API e Spin Rewriter API.
- Salva prodotti WooCommerce: è possibile salvare attributi, opzioni avanzate, inventario, spedizione e prezzi dei prodotti. Gli articoli possono essere salvati come prodotti esterni o semplici. Puoi anche definire gli elementi come virtuali o creare un'opzione di file scaricabile.
- Espressioni regolari: le espressioni regolari possono essere specificate nelle opzioni "trova e sostituisci". Questo rende più facile trovare e sostituire qualsiasi cosa. È inoltre possibile implementare modificatori e delimitatori per perfezionare ulteriormente le ricerche.
- Salva attributi "alt" e "title" : tutti gli attributi "title" e "alt" vengono recuperati automaticamente dal sito di destinazione quando si salvano le immagini. Tali attributi vengono quindi assegnati alle rispettive immagini salvate. È possibile creare modelli per allinearsi alle strategie di ottimizzazione dei motori di ricerca.
- Strumento di scansione manuale : puoi inserire vari URL per salvare più di un post alla volta utilizzando l'utilità di scansione manuale. È inoltre possibile inserire gli URL delle categorie affinché lo strumento ottenga gli URL dei post appropriati. Puoi impostare il crawler per eseguire la scansione di diversi post contemporaneamente.
Scraper – Plugin Content Crawler per WordPress
Il plug-in Scraper Content Crawler per WordPress è un plug-in che copia automaticamente contenuti e post da qualsiasi sito. Porta la creazione di contenuti a un altro livello con le sue caratteristiche e funzioni uniche.
Caratteristiche:
- Qualsiasi sito Web può essere raschiato : l'utilizzo dei metodi Regex e XPath significa che puoi raschiare qualsiasi sito desideri.
- Puoi raschiare gli attributi : Raschietto può anche recuperare gli attributi degli elementi. Ciò significa che puoi ottenere collegamenti, fonti di immagini, fonti video.
- Immagine in primo piano : qualsiasi immagine può essere estratta e impostata come immagine in primo piano.
- Spinner di contenuti : il plug-in AI Spinner è completamente supportato. Puoi utilizzare questo plugin per creare contenuti unici.
- Traduzione in lingua : lo scraper rileverà automaticamente il contenuto, che potrà quindi essere tradotto nella lingua che preferisci.
- Immagini della galleria : qualsiasi immagine può essere analizzata. Puoi usare quelle immagini per creare gallerie di immagini.
- Prodotti WooCommerce: sono supportati anche tutti i tag WooCommerce. Ciò semplifica l'aggiunta di prodotti WooCommerce al tuo negozio.
- Calcoli matematici: le funzioni matematiche possono sottrarre, aggiungere, dividere o moltiplicare i numeri. Questo può tornare utile nei calcoli dei prezzi.
- Pianifica attività : è possibile assegnare attività da svolgere a vari intervalli.
- Elimina collegamenti : elimina i collegamenti dal contenuto del post originale.
- Supporto proxy : è possibile utilizzare i proxy per scopi di scraping.
Raschiatore multisito Crawlomatic
Il plug-in Crawlomatic Multisite Scraper è un plug-in di autoblogging per la scansione e lo scraping di siti Web. Non hai bisogno di API per raschiare i contenuti.
Questo plugin eseguirà la scansione dell'URL (cercherà tutti i collegamenti in una pagina), visiterà ed estrarrà il contenuto da ciascun URL scansionato. Il processo di scansione è personalizzabile . Puoi impostare la profondità di scansione, la velocità di scansione, il numero massimo di articoli scansionati, eseguire la scansione solo dei collegamenti con una classe o un ID specifici, ecc.
Puoi raschiare contenuti da quasi tutti i siti. Se il contenuto viene caricato utilizzando JavaScript, il plug-in può essere combinato con PhantomJS per raschiare il contenuto generato da JavaScript.
Caratteristiche:
- La scansione delle mappe del sito è completamente supportata.
- Il supporto per il selettore di contenuto visivo.
- Puoi impaginare la scansione del sito. La scansione dell'articolo riprenderà nella pagina successiva del sito di destinazione.
- Puoi importare i prezzi per tutti i prodotti sottoposti a scansione (per i siti compatibili con WooCommerce). I prezzi di dropshipping vengono adeguati automaticamente di conseguenza.
- Puoi aumentare i prezzi degli articoli importati di un numero predefinito. Puoi anche moltiplicare l'importo per un numero prestabilito, che è un'opzione utile per i dropshipper.
- I proxy possono essere utilizzati per la scansione.
- Se non puoi eseguire la scansione diretta (se sei bloccato, ad esempio), puoi sempre eseguire la scansione di una determinata pagina dalla cache di Google.
- Google Traduttore è supportato. Puoi scegliere la lingua in cui vuoi che vengano visualizzati gli articoli del tuo sito.
- Anche gli spinner di testo sono completamente supportati. Puoi modificare il testo che viene generato automaticamente. Le parole possono essere cambiate con i loro sinonimi, se preferisci. È possibile utilizzare SpinRewriter, The Best Spinner, TurkceSpin, WordAI e altri.
- Lo scraping e la scansione del sito possono essere configurati per rispettare le intestazioni HTML dei robot delle pagine raschiate e i file robots.txt dei siti raschiati.
- I tag e le categorie di post dei prodotti possono essere creati automaticamente.
- La scansione e lo scraping del sito Web possono essere utilizzati per incorporare video di DailyMotion, Flickr, IGN, Ustream.tv, Vimeo o YouTube.
WP Raschietto Pro
Plugin automatico WordPress
Il plug-in automatico di WordPress è uno strumento conveniente che può pubblicare automaticamente su WordPress da quasi tutti i siti. Ci sono molte selezioni di importazione.
Oltre ai soliti articoli, puoi anche importare i seguenti contenuti: prodotti Amazon e Walmart, video YouTube, Vimeo e DailyMotion, immagini Flickr e Instagram, aste eBay, post sui social media (tweet, pin, post Reddit e Facebook), annunci di Craigslist, contenuti di iTunes (come brani, podcast, app, eBook), brani di SoundCloud e persino elementi di Envato.
Puoi selezionare la fonte del contenuto e applicare le opzioni di filtro per tag, autore e categoria. Ciò significa che non tutte le informazioni di destinazione verranno importate.
Puoi scegliere le immagini, il formato, il modello di post, il tipo e lo stato che il plugin recupererà. Ci sono anche opzioni avanzate di traduzione e riscrittura . Puoi anche sostituire automaticamente determinate parole che non desideri vengano visualizzate sul tuo sito.
Puoi impostare gli stati dei post su Pubblicato o Bozza. Alcune frasi o parole possono essere escluse. Puoi anche rimuovere tutti i link prima di pubblicare un post. Le immagini in primo piano possono essere impostate automaticamente.
Le impostazioni possono essere modificate, quindi i titoli duplicati, i post non in inglese e i post senza immagini vengono saltati. I campi personalizzati vengono aggiunti automaticamente ai post e sono supportati i siti multipli.
Robot WP
WP Robot è un plugin per l' autoblogging e la cura dei contenuti . Ti consente di creare automaticamente post di blog WordPress raschiando contenuti da altri siti. Fornisce informazioni a goccia relative alla tua particolare specialità o nicchia. In questo modo avrai sempre i contenuti più aggiornati.
Sono supportate più di 30 fonti di contenuto e ogni fonte di contenuto è automatizzata. Possono essere utilizzati in qualsiasi combinazione tu preferisca per trovare contenuti di qualità per il tuo sito web. In base a ciò di cui hai bisogno, ci sono molti modi in cui questo strumento può aiutarti.
WP Robot può estrarre contenuti da siti di e-Commerce se stai cercando di pubblicare prodotti da Amazon, AliExpress, Etsy, ecc. Il plug-in può estrarre immagini da Flickr e Pixabay, brani da iTunes, YouTube, video di Vimeo, ecc.
Commission Junction e Linkshare sono alcune delle reti di affiliazione supportate da WP Robot e puoi pubblicare automaticamente offerte da loro. Il contenuto del feed RSS può anche essere aggiunto al tuo sito. Se vuoi più di quello che offrono i moduli esistenti, questo può darti una maggiore libertà. Per maggiori informazioni, assicurati di controllare la mia recensione di WP Robot.
Conclusione sui plugin WordPress Scraper
Il web scraping (noto anche come web harvesting, estrazione di dati web e screen scraping) acquisisce vaste informazioni da vari siti. Questi dati vengono quindi salvati su un altro sito Web o su un database. Molte soluzioni di web scraping richiedono ulteriori conoscenze e possono essere piuttosto complicate. Utilizzando i plug-in di scraper di WordPress menzionati, lo scraping dei contenuti è molto semplice.
Se desideri creare un negozio affiliato, un sito di confronto prezzi, un sito di offerte o un negozio dropshipping, dovrai aggiungere prodotti al tuo sito. È un modo migliore per automatizzare quel processo invece di aggiungere manualmente i prodotti.
A tal fine, avrai bisogno di un buon plugin per l' importazione dei prodotti . Sebbene siano disponibili molte soluzioni, la maggior parte di esse richiede che tu disponga di un feed o di un'API che verrà utilizzata per importare i prodotti.
Ma cosa succede se non si dispone di un feed? Cosa poi? Come importare prodotti sul sito se non hai accesso ai feed? In questo caso, avrai bisogno di un plug-in Web scraper di WordPress.