Lettura: 19,9 minuti

Visite: 9

Lettura: 19,9 minuti

Visite: 9

Altre guide al tema e Strumenti

  • XML Sitemap & Google News Di: RavanH – Plugin Semplice per la generazione di MAPPE
  • Rank Math SEO per una ottimizzazione SEO molto ben fatta e avanzata, un plugin completo ed efficace che genera anche le MAPPE. (lo considero migliore di Yoast).

Regole di Scrittura del File Robots.txt

Il file robots.txt deve essere inserito nella directory di primo livello di un sito, su un protocollo supportato. L’URL del file robots.txt è sensibile alle maiuscole, come gli altri URL. Nel caso della Ricerca Google i crawler recuperano il file robots.txt  (tutto minuscolo)

Nel file robots.txt generato da WP abbiamo un codice molto semplice e impostato per il solo Delay di scansione. Che però non influisce sul Delay di Google Bot.

#Simple Robots.txt 0.1
User-agent: MSNBot
Crawl-delay: 5
User-agent: bingbot
Crawl-delay: 5

La sintassi Principale degli elementi

# commento : come in molti file di questo tipo, i commenti sono dopo #. ogni riga di commento dovrà iniziare con #. Esempio: #Questo è un elenco di User Agent

user-agent: identifica a quale crawler si applicano le regole. Il valore della riga user-agent è sensibile alle maiuscole; questo vuol dire che l’Agent MSNBot, non sarà lo stesso agente di msnbot. E’ quindi essenziale scrivere Agent corretto (o scrivere sia la versione minuscola che maiuscola per sicurezza). Se come nome del agent si usa * allora si dice al sistema che tutti gli agent con qualunque nome. E’ sconsigliato usare * per la direttiva crawl-delay!

User-Agent: MSNBot
user-agent: Googlebot
User-agent: *

crawl-delay: distanza in secondi tra una richiesta l’altra degli url (google lo ignora, ma altri lo utilizzano). se si imposta 5, avremo 5 secondi di distanza. Numeri più grandi sono quindi 86400 = 1giorno e 18000 = 5 ore.

#______Esempio______________
User-agent: *
crawl-delay: 5

#______Esempio______________
User-Agent: MSNBot
Crawl-delay: 100

allow: un percorso dell’URL che può essere sottoposto a scansione. Quindi dai il permesso di.

disallow: un percorso dell’URL che non può essere sottoposto a scansione. Quindi togli il permesso a.
Essi sono sensibile alle maiuscole. Questo vuol dire che indirizzi, nome di cartelle, nome di file devono essere esattamente scritti come appaiono nella directory del sito. Inoltre si possono usare i seguenti codici per identificare parti di URL:

/   Corrisponde all'URL principale e a ogni URL di livello inferiore
/*   Equivalente a /. Il carattere jolly finale viene ignorato
/$ Corrisponde solo all'URL principale. È consentita la scansione di qualsiasi URL di livello inferiore

Quindi avremo semplici url delle cartelle come disallow: /wp-admin (si nota che la / finale tipo /wp-admin/ non è necessario alla fine della riga, ma può essere messa), url di file specifici disallow: /wp-cron.php, all’url primario indicato, lasciando però scansionabile i sotto url e quindi le sotto cartelle. Ma anche ricerca nei url (che non sono effettivamente cartelle e file) che hanno ad esempio un comando o una sezione: ?s= è negli url di ricerca wordpress, e magari non vogliamo che scansioni tutti gli url di ricerca. o ancora *add-to-cart* sono url presenti negli e-commerce e aggiungono i prodotti al carrello, sono url che non desideriamo far scansionare.

#______Esempio______________
User-agent: *
disallow: /

#______Esempio______________

user-agent: Googlebot
User-Agent: MSNBot

disallow: /

#______Esempio______________
User-agent: bingbot/2.0
User-agent: Msnbot
User-agent: msnbot-media

disallow: /wp-admin/
disallow: /wp-cron.php
Disallow: *?s=*
Disallow: *&preview=*
Disallow: *add-to-cart*

sitemap: l’URL completo di una Sitemap. Spesso si inserisce anche URL della sitemap così i vari Agent sanno i link da controllare. Si possono mettere diverse site map, che sono più specificie. Esso è sensibile alle maiuscole; E’ importante specificare che i sitemap dovrebbero apparire sempre alla fine del file.

sitemap: https://example.com/sitemap.xml
#_____anche piu sitemap_____________________________________________________________________
sitemap: https://example.com/sitemap.xml
sitemap: https://example.com/sitemap_index.xml
sitemap: https://example.com/video-sitemap.xml

Elenco USE AGENT per il file ROBOT

Google – sia siti, immagini, ads e altro

Questi agent dovrebbero essere tenuti perché google è il motore di ricerca più usato! Se non permettete l’accesso non avrete un buon funzionamento dei servizi Webmaster User.
Elenco UFFICIALE AGENT GOOGLE QUI!

User-agent: Googlebot
User-agent: Googlebot-Image
User-agent: Googlebot-Video
User-agent: Googlebot-Mobile
User-agent: Googlebot-News
User-agent: Storebot-Google
User-agent: Google-InspectionTool
User-agent: Mediapartners-Google
User-agent: GoogleOther
User-agent: Google-Extended
User-agent: FeedFetcher-Google
User-agent: AdsBot-Google
User-agent: AdsBot-Google-Mobile

User Agent SOCIAL

Facebook è della ditta Meta, quindi troverete come user agent anche Meta come nome

User-agent: FacebookBot
User-agent: facebookexternalhit
User-agent: Meta-ExternalFetcher
User-agent: meta-externalagent     
User-agent: facebookplatform
User-agent: Facebot

User-agent: Twitterbot
User-agent: Visionutils
User-agent: datagnionbot
User-agent: LinkedInBot
User-agent: Pinterestbot
User-agent: TelegramBot

Motore di ricerca DuckDuckGo e Brave

DuckDuckBot e Brave sono dei browser e dei motori di ricerca. Non sono usati da moltissime persone, ma hanno una ristretta nicchia e sono normali user agent.

User-agent: DuckDuckBot
User-agent: Bravebot

User Agent di Page Speed google

Certe volte si ha il dubbio che Page Speed di google non funzioni correttamente. gli agenti di esso sono i seguenti:

User-agent: Chrome-Lighthouse
User-agent: Google Page Speed Insights 

User Agent di Google Merchants

Questo strumento richiede per le informazioni immagini di accedere alle cartelle contenuti le immagini. Attenzione, alla cartella delle immagini deve accedere anche “Googlebot” e non solo “Googlebot-Image”

User-agent: Googlebot
User-agent: Googlebot-Image

AI crawlers bots – gli agent Intelligenza Artificiale

Dal 2025 le AI fregano tutti i dati dai siti, un modo per impedirglielo è bloccare l’accesso al tuo sito. Gli Agenti identificati come AI (solo i principali) sono qui elencati. (fonte)

User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: Google-Extended
User-agent: PerplexityBot
User-agent: Amazonbot
User-agent: ClaudeBot
User-agent: Omgilibot
User-Agent: FacebookBot
User-Agent: Applebot
User-agent: anthropic-ai
User-agent: Bytespider
User-agent: Claude-Web
User-agent: Diffbot
User-agent: ImagesiftBot
User-agent: Omgilibot
User-agent: Omgili
User-agent: YouBot

BIG e Microsoft – siti e immagini

Microsoft Bing è un motore di ricerca usato su internet exsplorer (edge). Un motore minore ma rilevante! (AdIdx è per le pubblicità ads)

User-agent: Bingbot
User-agent: Bingbot-Mobile
User-agent: AdIdxBot
User-agent: BingPreview

User-agent: Msnbot
User-agent: msnbot-media

Apple e safari

Tutti conosciamo l’azienda Apple con i suoi Mac e il loro browser safari.

User-agent: Applebot
User-agent: Applebot-Extended

Yandex – siti e immagini

Yandex è uno strumento simile a WebmasterTool di google, un valido strumento, ma utilizzato principalmente nei paesi dell’est. E’ uno strumento russo. Ha veramente strumenti molto validi, ma non è essenziale.

User-agent: Yandex
User-agent: YandexBot
User-agent: YandexImages

Archive.org

Non è un bot che si attiva spesso da solo, è del più grande sito di archivio storico dei siti web e permette di avere delle copie reali di come era un sito. E’ utile per chi usa cloudflare (opzione sempre visibile), perchè prende la copia da questo sito e quindi viene spedito ogni x giorni (free 30g) la richiesta.

User-agent: archive.org_bot

Motori di ricerca Cinesi – non dannosi, ma forse poco utili

I cinesi usano i propri motori di ricerca, che da noi potrebbero risultare inutili far passare.



User-agent: Baiduspider
User-agent: Baiduspider/2.0
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: baiduspider-mobile
User-agent: baiduspider-news

User-agent: Sogou spider
User-agent: Sogou web spider

User-agent: Sosospider
User-agent: Sosospider+
User-agent: Sosospider/2.0

User-agent: yodao
User-agent: youdao

User-agent: YoudaoBot
User-agent: YoudaoBot/1.0

USE AGENT specialmente dannosi o insistenti

Questi User agent sono considerati dannosi, sia perchè troppo insistenti che con scopi non di effettiva ricerca dell’utente
si consiglia di impostare blocco assoluto con: Disallow: /

# Block Bad Bots - USARE Disallow: /
User-agent: DotBot
User-agent: GiftGhostBot
User-agent: Seznam
User-agent: PaperLiBot
User-agent: Genieo 
User-agent: Dataprovider/6.101
User-agent: DataproviderSiteExplorer
User-agent: Dazoobot/1.0
User-agent: Diffbot
User-agent: DomainStatsBot/1.0
User-agent: DotBot/1.1
User-agent: dubaiindex
User-agent: eCommerceBot
User-agent: ExpertSearchSpider
User-agent: Feedbin
User-agent: Fetch/2.0a
User-agent: FFbot/1.0
User-agent: focusbot/1.1
User-agent: HuaweiSymantecSpider
User-agent: HuaweiSymantecSpider/1.0
User-agent: JobdiggerSpider
User-agent: LemurWebCrawler
User-agent: LipperheyLinkExplorer
User-agent: LSSRocketCrawler/1.0
User-agent: LYT.SRv1.5
User-agent: MiaDev/0.0.1
User-agent: Najdi.si/3.1
User-agent: BountiiBot
User-agent: Experibot_v1
User-agent: bixocrawler
User-agent: bixocrawler TestCrawler
User-agent: Crawler4j
User-agent: Crowsnest/0.5
User-agent: CukBot
User-agent: Dataprovider/6.92
User-agent: DBLBot/1.0
User-agent: Diffbot/0.1
User-agent: Digg Deeper/v1
User-agent: discobot/1.0
User-agent: discobot/1.1
User-agent: discobot/2.0
User-agent: discoverybot/2.0
User-agent: Dlvr.it/1.0
User-agent: DomainStatsBot/1.0
User-agent: drupact/0.7
User-agent: Ezooms/1.0  
User-agent: fastbot crawler beta 2.0  
User-agent: fastbot crawler beta 4.0  
User-agent: feedly social
User-agent: Feedly/1.0  
User-agent: FeedlyBot/1.0  
User-agent: Feedspot  
User-agent: Feedspotbot/1.0
User-agent: Clickagy Intelligence Bot v2
User-agent: classbot
User-agent: CISPA Vulnerability Notification
User-agent: CirrusExplorer/1.1
User-agent: Checksem/Nutch-1.10
User-agent: CatchBot/5.0
User-agent: CatchBot/3.0
User-agent: CatchBot/2.0
User-agent: CatchBot/1.0
User-agent: CamontSpider/1.0
User-agent: Buzzbot/1.0
User-agent: Buzzbot
User-agent: BusinessSeek.biz_Spider
User-agent: BUbiNG
User-agent: 008/0.85
User-agent: 008/0.83
User-agent: 008/0.71
User-agent: ^Nail
User-agent: FyberSpider/1.3
User-agent: findlinks/1.1.6-beta5
User-agent: g2reader-bot/1.0
User-agent: findlinks/1.1.6-beta6
User-agent: findlinks/2.0
User-agent: findlinks/2.0.1
User-agent: findlinks/2.0.2
User-agent: findlinks/2.0.4
User-agent: findlinks/2.0.5
User-agent: findlinks/2.0.9
User-agent: findlinks/2.1
User-agent: findlinks/2.1.5
User-agent: findlinks/2.1.3
User-agent: findlinks/2.2
User-agent: findlinks/2.5
User-agent: findlinks/2.6
User-agent: FFbot/1.0
User-agent: findlinks/1.0
User-agent: findlinks/1.1.3-beta8
User-agent: findlinks/1.1.3-beta9
User-agent: findlinks/1.1.4-beta7
User-agent: findlinks/1.1.6-beta1
User-agent: findlinks/1.1.6-beta1 Yacy
User-agent: findlinks/1.1.6-beta2
User-agent: findlinks/1.1.6-beta3
User-agent: findlinks/1.1.6-beta4
User-agent: bixo
User-agent: bixolabs/1.0
User-agent: Crawlera/1.10.2
User-agent: Dataprovider Site Explorer


# Backlink Protector
User-agent: AhrefsBot
User-agent: Alexibot
User-agent: MJ12bot
User-agent: SurveyBot
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: rogerbot
User-agent: Baidu Spider
User-agent: SemrushBot
User-agent: Barkrowler
User-agent: Bytespider

#Attacchi ricevuti
User-agent: nbot

Modelli Personalizza file Robots.txt – Esempi

Qui di seguito alcuni esempi di utilizzo del file robots che nel tempo ho perfezionato. Si consiglia sempre di prendere un modello ed elaborarlo secondo le proprie esigenze!

  • Controllo intermedio (buon compromesso)
  • Controllo completo
  • Modello Semplice

Questo modello ha un controllo intermedio. Abbiamo il Delay un po’ più importante, per non appesantire i server. E lo applichiamo ai bot più rilevanti. Google ovviamente ignora il comando delay.
Poi abbiamo tolto l’accesso ad alcune cartelle specifiche e url specifici di wordpress e plugin, per snellire le procedure. La cartella uploads deve rimanere leggibile, compresi eventuali cartelle anno, ma alcuni file di vari plugin usati non devono essere scansionati per trovare le immagini (e quindi li disattiviamo). Tutte le cartelle sotto /wp-content/uploads sono quelle generate da alcuni plugin. Non è essenziale bloccarle, ma può essere utile non far navigare troppo i bot. Non solo cartelle, ma anche url specifici, con comandi che non portano a pagine che dovrebbero essere indicizzate.
Infine blocchiamo la lista dei Bot dannosi, così da avere zero sovraccarico del sito da parte loro.

R
# __ DELAY tempo __  (elencare tutti gli user, non mettere asterisco ---------- 

User-agent: Bingbot
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: MSNBot


User-agent: FacebookBot
User-agent: facebookexternalhit
User-agent: Meta-ExternalFetcher
User-agent: meta-externalagent     
User-agent: facebookplatform
User-agent: Facebot

User-agent: Twitterbot
User-agent: Visionutils
User-agent: datagnionbot
User-agent: LinkedInBot
User-agent: Pinterestbot
User-agent: TelegramBot

User-agent: Yandex
User-agent: YandexBot
User-agent: YandexImages

#____Crawl-delay____ 
# IN SECONDI con standard da 5 = 5secondi | 60 = 1minuto | 86400 = 1giorno | 18000 = 5 ore
Crawl-delay: 60






# ___ DEFINIZIONE DEGLI AGENTI ___ in questo caso tutti ________
User-agent: *




#____Directory CONSENSO DISATTIVATO____

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/mu-plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/upgrade/
Disallow: /wp-content/upgrade-temp-backup/



# IMMAGINI e VIDEO -------------------------------------------- 

#____Directory CONSENSO UPLOADS e DISATTIVAZIONE SOTTO CARTELLE____
Disallow: /wp-content/uploads/avada-global-options/
Disallow: /wp-content/uploads/cfdb7_uploads/
Disallow: /wp-content/uploads/complianz/
Disallow: /wp-content/uploads/fonts/
Disallow: /wp-content/uploads/fusion-gfonts/
Disallow: /wp-content/uploads/fusion-icons/
Disallow: /wp-content/uploads/fusion-styles/
Disallow: /wp-content/uploads/fusion-scripts/
Disallow: /wp-content/uploads/fusionredux/
Disallow: /wp-content/uploads/ithemes-security/
Disallow: /wp-content/uploads/photo-reviews-cartella-img/
Disallow: /wp-content/uploads/rank-math/
Disallow: /wp-content/uploads/smush/
Disallow: /wp-content/uploads/uploads_woof_turbo_mode/
Disallow: /wp-content/uploads/wc-logs/
Disallow: /wp-content/uploads/woo-feed/
Disallow: /wp-content/uploads/woocommerce_transient_files/
Disallow: /wp-content/uploads/woocommerce_uploads/
Disallow: /wp-content/uploads/wpcf7_uploads/
Disallow: /wp-content/uploads/wpcode/
Disallow: /wp-content/uploads/wpcode-logs/
Disallow: /wp-content/uploads/wpo/
Disallow: /wp-content/uploads/wt-advanced-order-number-lock/




# DISATTIVA PER TUTTI QUESTI INDIRIZZI------------------------------- 

Disallow: */?author=*
Disallow: */author/*
Disallow: /author*
Disallow: /author/
Disallow: */comments$
Disallow: /trackback/
Disallow: */trackback
Disallow: */trackback$
Disallow: /wp-trackback
Disallow: /feed/
Disallow: /feed/$
Disallow: /comments/feed/
Disallow: /?feed=
Disallow: */feed
Disallow: */feed$
Disallow: /wp-feed

# Disallow: /wp-comments
# Disallow: */replytocom=


# __ Avoid crawler traps causing crawl budget issues ________________
Disallow: /search/
Disallow: /search
Disallow: *?s=*

Disallow: *?p=*
Disallow: *&p=*
Disallow: *&preview=*



## _______sotto tipi di url delle varie categorie con filtro e prodotto con filtro
Disallow: /carrello/
Disallow: /pagamento/

Disallow: *add-to-cart*
Disallow: *product_count*
Disallow: *product_view*
Disallow: *?product_view*
Disallow: *product_orderby*
Disallow: *attribute_pa_*
Disallow: *?remove_item*


#____Directory FILE - CONSENSO DISATTIVATO____
Disallow: /wp-cron.php
Disallow: /admin-ajax.php


# __ PLUGIN aggiunti da bloccare robot  _________________________

# ..plugin (WebToffee) ....
Disallow: /wp-content/uploads/wp-import-export-lite/





# _______ ROBOT  INVADENTI da bloccare ----------------------- 

User-agent: DotBot
User-agent: GiftGhostBot
User-agent: Seznam
User-agent: PaperLiBot
User-agent: Genieo 
User-agent: Dataprovider/6.101
User-agent: DataproviderSiteExplorer
User-agent: Dazoobot/1.0
User-agent: Diffbot
User-agent: DomainStatsBot/1.0
User-agent: DotBot/1.1
User-agent: dubaiindex
User-agent: eCommerceBot
User-agent: ExpertSearchSpider
User-agent: Feedbin
User-agent: Fetch/2.0a
User-agent: FFbot/1.0
User-agent: focusbot/1.1
User-agent: HuaweiSymantecSpider
User-agent: HuaweiSymantecSpider/1.0
User-agent: JobdiggerSpider
User-agent: LemurWebCrawler
User-agent: LipperheyLinkExplorer
User-agent: LSSRocketCrawler/1.0
User-agent: LYT.SRv1.5
User-agent: MiaDev/0.0.1
User-agent: Najdi.si/3.1
User-agent: BountiiBot
User-agent: Experibot_v1
User-agent: bixocrawler
User-agent: bixocrawler TestCrawler
User-agent: Crawler4j
User-agent: Crowsnest/0.5
User-agent: CukBot
User-agent: Dataprovider/6.92
User-agent: DBLBot/1.0
User-agent: Diffbot/0.1
User-agent: Digg Deeper/v1
User-agent: discobot/1.0
User-agent: discobot/1.1
User-agent: discobot/2.0
User-agent: discoverybot/2.0
User-agent: Dlvr.it/1.0
User-agent: DomainStatsBot/1.0
User-agent: drupact/0.7
User-agent: Ezooms/1.0  
User-agent: fastbot crawler beta 2.0  
User-agent: fastbot crawler beta 4.0  
User-agent: feedly social
User-agent: Feedly/1.0  
User-agent: FeedlyBot/1.0  
User-agent: Feedspot  
User-agent: Feedspotbot/1.0
User-agent: Clickagy Intelligence Bot v2
User-agent: classbot
User-agent: CISPA Vulnerability Notification
User-agent: CirrusExplorer/1.1
User-agent: Checksem/Nutch-1.10
User-agent: CatchBot/5.0
User-agent: CatchBot/3.0
User-agent: CatchBot/2.0
User-agent: CatchBot/1.0
User-agent: CamontSpider/1.0
User-agent: Buzzbot/1.0
User-agent: Buzzbot
User-agent: BusinessSeek.biz_Spider
User-agent: BUbiNG
User-agent: 008/0.85
User-agent: 008/0.83
User-agent: 008/0.71
User-agent: ^Nail
User-agent: FyberSpider/1.3
User-agent: findlinks/1.1.6-beta5
User-agent: g2reader-bot/1.0
User-agent: findlinks/1.1.6-beta6
User-agent: findlinks/2.0
User-agent: findlinks/2.0.1
User-agent: findlinks/2.0.2
User-agent: findlinks/2.0.4
User-agent: findlinks/2.0.5
User-agent: findlinks/2.0.9
User-agent: findlinks/2.1
User-agent: findlinks/2.1.5
User-agent: findlinks/2.1.3
User-agent: findlinks/2.2
User-agent: findlinks/2.5
User-agent: findlinks/2.6
User-agent: FFbot/1.0
User-agent: findlinks/1.0
User-agent: findlinks/1.1.3-beta8
User-agent: findlinks/1.1.3-beta9
User-agent: findlinks/1.1.4-beta7
User-agent: findlinks/1.1.6-beta1
User-agent: findlinks/1.1.6-beta1 Yacy
User-agent: findlinks/1.1.6-beta2
User-agent: findlinks/1.1.6-beta3
User-agent: findlinks/1.1.6-beta4
User-agent: bixo
User-agent: bixolabs/1.0
User-agent: Crawlera/1.10.2
User-agent: Dataprovider Site Explorer


# _______ ROBOT molto INVADENTI da bloccare con forza ! ----------------------- 


User-agent: AhrefsBot
User-agent: Alexibot
User-agent: MJ12bot
User-agent: SurveyBot
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: rogerbot
User-agent: Baidu Spider
User-agent: SemrushBot
User-agent: Barkrowler
User-agent: Bytespider
User-agent: nbot

Disallow: /







# SiteMaps  -------------------------------------------- 
sitemap: https://SITE.com/sitemap.xml
sitemap: https://SITE.com/sitemap_index.xml
sitemap: https://SITE.com/video-sitemap.xml
R

In questo modello si ha un controllo assoluto su ogni accesso. Si disattiva l’accesso a tutti gli agenti e poi si offre ad ogni agente specifico per tipo di area. molto specifico.

RICORDARSI DI CAMBIARE URL DELLE SITEMAP

R
# DELAY tempo   -------------------------------------------- 
User-agent: Bingbot
User-agent: bingbot/2.0
User-agent: Applebot

#____Crawl-delay____ 
# IN SECONDI con standard da 5 = 5secondi, quindi 86400 = 1giorno | 18000 = 5 ore
Crawl-delay: 60

# DISATTIVA TUTTI DI BASE  -------------------------------------------- 
 User-agent: *
 Disallow: /

# CONCESSI AGENTI  -------------------------------------------- 
#google -------------
User-agent: Googlebot
User-agent: Googlebot-Image
User-agent: Googlebot-Video
User-agent: Googlebot-Mobile
User-agent: Googlebot-News
User-agent: Storebot-Google
User-agent: Google-InspectionTool
User-agent: Mediapartners-Google
User-agent: GoogleOther
User-agent:	Google-Extended
User-agent:	FeedFetcher-Google
User-agent: AdsBot-Google
User-agent: AdsBot-Google-Mobile
#  Motori di ricerca -------------
User-agent: Yandex
User-agent: YandexBot
User-agent: Bingbot
User-agent: bingbot/2.0
User-agent: Applebot
User-agent: DuckDuckBot
User-agent: Qwantify
# SPEED Page google -------------
User-agent: Chrome-Lighthouse
User-agent: Google Page Speed Insights 
# SOCIAL MEDIA ---------
User-agent: Twitterbot
User-agent: facebookexternalhit
User-agent: facebookexternalhit/1.0
User-agent: facebookexternalhit/1.1
User-agent: facebookplatform/1.0
User-agent: Facebot/1.0
User-agent: Visionutils/0.2
User-agent: datagnionbot
User-agent: Twitterbot
User-agent: LinkedInBot/1.0
User-agent: Pinterest/0.1
User-agent: Pinterest/0.2
#____Directory CONSENSO TUTTO____
# scrivere solo Disallow: senza barra non blocca! o scrivere Allow: /
Allow: /
#____Directory CONSENSO DISATTIVATO____
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-content/languages
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/upgrade
# IMMAGINI e VIDEO -------------------------------------------- 
#____AGENTI____
User-agent: Googlebot
User-agent: Googlebot-image
User-agent: Googlebot-Video
User-agent: Chrome-Lighthouse
User-agent: Google Page Speed Insights 
User-agent: Twitterbot
User-agent: facebookexternalhit
User-agent: Storebot-Google
User-agent: msnbot-media
User-agent: YandexImages
#____Directory CONSENSO UPLOADS e DISATTIVAZIONE SOTTO CARTELLE____
Allow: /wp-content/uploads
Disallow: /wp-content/uploads/complianz
Disallow: /wp-content/uploads/fusion-gfonts
Disallow: /wp-content/uploads/fusion-styles
Disallow: /wp-content/uploads/fusion-scripts
Disallow: /wp-content/uploads/ithemes-security
Disallow: /wp-content/uploads/smush
Disallow: /wp-content/uploads/wpcf7_uploads
# DISATTIVA PER TUTTI QUESTI INDIRIZZI------------------------------- 
User-agent: *
Disallow: /feed/
Disallow: /feed/$
Disallow: /comments/feed
Disallow: /trackback/
Disallow: */?author=*
Disallow: */author/*
Disallow: /author*
Disallow: /author/
Disallow: */comments$
Disallow: */trackback
Disallow: */trackback$
# Disallow: /?feed=
# Disallow: */feed
# Disallow: */feed$
# Disallow: /wp-feed
# Disallow: /wp-comments
Disallow: /wp-trackback
Disallow: */replytocom=
# __ Avoid crawler traps causing crawl budget issues ________________
Disallow: /search/
Disallow: *?s=*
Disallow: *?p=*
Disallow: *&p=*
Disallow: *&preview=*
Disallow: /search
#____Directory FILE - CONSENSO DISATTIVATO____
Disallow: /wp-cron.php
Disallow: /admin-ajax.php
# __ PLUGIN aggiunti da bloccare robot  _________________________
# ..plugin (WebToffee) ....
Disallow: /wp-content/uploads/wp-import-export-lite/

# ROBOT molto INVADENTI da bloccare con forza ----------------------- 
User-agent: AhrefsBot
User-agent: Alexibot
User-agent: MJ12bot
User-agent: SurveyBot
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: rogerbot
User-agent: Baidu Spider
User-agent: nbot
Disallow: /


# SiteMaps  -------------------------------------------- 
sitemap: https://SITE.com/sitemap.xml
sitemap: https://SITE.com/sitemap_index.xml
sitemap: https://SITE.com/video-sitemap.xml
R

Una versione semplice, con una linea base di accesso e non accesso.

R
User-agent: bingbot 
User-agent: baiduspider
User-agent: baiduspider-image
User-agent: baiduspider-mobile
User-agent: baiduspider-news
User-agent: baiduspider-video
User-agent: bingbot
User-agent: msnbot
User-agent: msnbot-media
User-agent: adidxbot
User-agent: slurp
User-agent: yandex
User-agent: Yandex
User-agent: YandexBot
User-agent: YandexImages

Crawl-delay: 60

User-agent: *

Allow: /wp-admin/admin-ajax.php
Allow: /wp-includes/images/
Allow: /*/*.css
Allow: /*/*.js

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */disclaimer/*
Disallow: *?attachment_id=
Disallow: /privacy-policy
Disallow: /trackback/


User-agent: baiduspider
User-agent: baiduspider-image
User-agent: baiduspider-mobile
User-agent: baiduspider-news
User-agent: baiduspider-video
User-agent: msnbot
User-agent: msnbot-media
User-agent: slurp
User-agent: yandex

Disallow: /

sitemap: https://SITE.com/sitemap.xml
R

Contenuto della Guida

  • La rubrica dei Plugin

    (0)

  • Guide sulla programmazione

    (0)

  • SEO

    (1)

Scopri articoli correlati

Non caricati