Altre guide al tema e Strumenti
- GUIDA: https://www.semrush.com/blog/beginners-guide-robots-txt/
- GUIDA GOOGLE: https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt?hl=it
STRUMENTI
- GENERATORE ROBOT.txt: https://en.ryte.com/free-tools/robots-txt-generator/#custom
- ESEMPIO ROBOT COMPLESSO: https://www.palaubluetours.com/robots.txt
Siti di TEST dei ROBOTS.txt
- TUTTI I BOT TEST: https://technicalseo.com/tools/robots-txt/
- TEST GOOGLE ROBOT: https://support.google.com/webmasters/answer/6062598
- TEST BOT yandex: https://webmaster.yandex.com/tools/robotstxt/?hostName=luccafan.com
Plugin di Generazione MAPPA
- XML Sitemap & Google News Di: RavanH – Plugin Semplice per la generazione di MAPPE
- Rank Math SEO per una ottimizzazione SEO molto ben fatta e avanzata, un plugin completo ed efficace che genera anche le MAPPE. (lo considero migliore di Yoast).
Regole di Scrittura del File Robots.txt
Il file robots.txt deve essere inserito nella directory di primo livello di un sito, su un protocollo supportato. L’URL del file robots.txt è sensibile alle maiuscole, come gli altri URL. Nel caso della Ricerca Google i crawler recuperano il file robots.txt (tutto minuscolo)
Nel file robots.txt generato da WP abbiamo un codice molto semplice e impostato per il solo Delay di scansione. Che però non influisce sul Delay di Google Bot.
#Simple Robots.txt 0.1
User-agent: MSNBot
Crawl-delay: 5
User-agent: bingbot
Crawl-delay: 5La sintassi Principale degli elementi
Il file e il testo è sensibile a maiuscole e minuscole!
robots.txt deve essere tutto minuscolo
le direttive (user-agent, crawl-delay, allow, disallow) possono essere scritte in maiuscolo o minuscolo.
il contenuto dentro la direttiva è sensibile al maiuscolo e minuscolo: i nomi dei crawler e gli url devono essere esatti.
il # commento
# commento : come in molti file di questo tipo, i commenti sono dopo #. ogni riga di commento dovrà iniziare con #. Esempio: #Questo è un elenco di User Agent
user-agent
user-agent: identifica a quale crawler si applicano le regole. Il valore della riga user-agent è sensibile alle maiuscole; questo vuol dire che l’Agent MSNBot, non sarà lo stesso agente di msnbot. E’ quindi essenziale scrivere Agent corretto (o scrivere sia la versione minuscola che maiuscola per sicurezza). Se come nome del agent si usa * allora si dice al sistema che tutti gli agent con qualunque nome. E’ sconsigliato usare * per la direttiva crawl-delay!
User-Agent: MSNBot
user-agent: Googlebot
User-agent: *
crawl-delay
crawl-delay: distanza in secondi tra una richiesta l’altra degli url (google lo ignora, ma altri lo utilizzano). se si imposta 5, avremo 5 secondi di distanza. Numeri più grandi sono quindi 86400 = 1giorno e 18000 = 5 ore.
#______Esempio______________
User-agent: *
crawl-delay: 5
#______Esempio______________
User-Agent: MSNBot
Crawl-delay: 100allow
allow: un percorso dell’URL che può essere sottoposto a scansione. Quindi dai il permesso di.
disallow
disallow: un percorso dell’URL che non può essere sottoposto a scansione. Quindi togli il permesso a.
Essi sono sensibile alle maiuscole. Questo vuol dire che indirizzi, nome di cartelle, nome di file devono essere esattamente scritti come appaiono nella directory del sito. Inoltre si possono usare i seguenti codici per identificare parti di URL:
/ Corrisponde all'URL principale e a ogni URL di livello inferiore
/* Equivalente a /. Il carattere jolly finale viene ignorato
/$ Corrisponde solo all'URL principale. È consentita la scansione di qualsiasi URL di livello inferioreQuindi avremo semplici url delle cartelle come disallow: /wp-admin (si nota che la / finale tipo /wp-admin/ non è necessario alla fine della riga, ma può essere messa), url di file specifici disallow: /wp-cron.php, all’url primario indicato, lasciando però scansionabile i sotto url e quindi le sotto cartelle. Ma anche ricerca nei url (che non sono effettivamente cartelle e file) che hanno ad esempio un comando o una sezione: ?s= è negli url di ricerca wordpress, e magari non vogliamo che scansioni tutti gli url di ricerca. o ancora *add-to-cart* sono url presenti negli e-commerce e aggiungono i prodotti al carrello, sono url che non desideriamo far scansionare.
#______Esempio______________
User-agent: *
disallow: /
#______Esempio______________
user-agent: Googlebot
User-Agent: MSNBot
disallow: /
#______Esempio______________
User-agent: bingbot/2.0
User-agent: Msnbot
User-agent: msnbot-media
disallow: /wp-admin/
disallow: /wp-cron.php
Disallow: *?s=*
Disallow: *&preview=*
Disallow: *add-to-cart*sitemap
sitemap: l’URL completo di una Sitemap. Spesso si inserisce anche URL della sitemap così i vari Agent sanno i link da controllare. Si possono mettere diverse site map, che sono più specificie. Esso è sensibile alle maiuscole; E’ importante specificare che i sitemap dovrebbero apparire sempre alla fine del file.
sitemap: https://example.com/sitemap.xml
#_____anche piu sitemap_____________________________________________________________________
sitemap: https://example.com/sitemap.xml
sitemap: https://example.com/sitemap_index.xml
sitemap: https://example.com/video-sitemap.xmlElenco USE AGENT per il file ROBOT
Google – sia siti, immagini, ads e altro
Questi agent dovrebbero essere tenuti perché google è il motore di ricerca più usato! Se non permettete l’accesso non avrete un buon funzionamento dei servizi Webmaster User.
Elenco UFFICIALE AGENT GOOGLE QUI!
User-agent: Googlebot
User-agent: Googlebot-Image
User-agent: Googlebot-Video
User-agent: Googlebot-Mobile
User-agent: Googlebot-News
User-agent: Storebot-Google
User-agent: Google-InspectionTool
User-agent: Mediapartners-Google
User-agent: GoogleOther
User-agent: Google-Extended
User-agent: FeedFetcher-Google
User-agent: AdsBot-Google
User-agent: AdsBot-Google-MobileUser Agent SOCIAL
Facebook è della ditta Meta, quindi troverete come user agent anche Meta come nome
User-agent: FacebookBot
User-agent: facebookexternalhit
User-agent: Meta-ExternalFetcher
User-agent: meta-externalagent
User-agent: facebookplatform
User-agent: Facebot
User-agent: Twitterbot
User-agent: Visionutils
User-agent: datagnionbot
User-agent: LinkedInBot
User-agent: Pinterestbot
User-agent: TelegramBotMotore di ricerca DuckDuckGo e Brave
DuckDuckBot e Brave sono dei browser e dei motori di ricerca. Non sono usati da moltissime persone, ma hanno una ristretta nicchia e sono normali user agent.
User-agent: DuckDuckBot
User-agent: BravebotUser Agent di Page Speed google
Certe volte si ha il dubbio che Page Speed di google non funzioni correttamente. gli agenti di esso sono i seguenti:
User-agent: Chrome-Lighthouse
User-agent: Google Page Speed Insights User Agent di Google Merchants
Questo strumento richiede per le informazioni immagini di accedere alle cartelle contenuti le immagini. Attenzione, alla cartella delle immagini deve accedere anche “Googlebot” e non solo “Googlebot-Image”
User-agent: Googlebot
User-agent: Googlebot-ImageAI crawlers bots – gli agent Intelligenza Artificiale
Dal 2025 le AI fregano tutti i dati dai siti, un modo per impedirglielo è bloccare l’accesso al tuo sito. Gli Agenti identificati come AI (solo i principali) sono qui elencati. (fonte)
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: Google-Extended
User-agent: PerplexityBot
User-agent: Amazonbot
User-agent: ClaudeBot
User-agent: Omgilibot
User-Agent: FacebookBot
User-Agent: Applebot
User-agent: anthropic-ai
User-agent: Bytespider
User-agent: Claude-Web
User-agent: Diffbot
User-agent: ImagesiftBot
User-agent: Omgilibot
User-agent: Omgili
User-agent: YouBotBIG e Microsoft – siti e immagini
Microsoft Bing è un motore di ricerca usato su internet exsplorer (edge). Un motore minore ma rilevante! (AdIdx è per le pubblicità ads)
User-agent: Bingbot
User-agent: Bingbot-Mobile
User-agent: AdIdxBot
User-agent: BingPreview
User-agent: Msnbot
User-agent: msnbot-mediaApple e safari
Tutti conosciamo l’azienda Apple con i suoi Mac e il loro browser safari.
User-agent: Applebot
User-agent: Applebot-ExtendedYandex – siti e immagini
Yandex è uno strumento simile a WebmasterTool di google, un valido strumento, ma utilizzato principalmente nei paesi dell’est. E’ uno strumento russo. Ha veramente strumenti molto validi, ma non è essenziale.
User-agent: Yandex
User-agent: YandexBot
User-agent: YandexImagesArchive.org
Non è un bot che si attiva spesso da solo, è del più grande sito di archivio storico dei siti web e permette di avere delle copie reali di come era un sito. E’ utile per chi usa cloudflare (opzione sempre visibile), perchè prende la copia da questo sito e quindi viene spedito ogni x giorni (free 30g) la richiesta.
User-agent: archive.org_botMotori di ricerca Cinesi – non dannosi, ma forse poco utili
I cinesi usano i propri motori di ricerca, che da noi potrebbero risultare inutili far passare.
User-agent: Baiduspider
User-agent: Baiduspider/2.0
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: baiduspider-mobile
User-agent: baiduspider-news
User-agent: Sogou spider
User-agent: Sogou web spider
User-agent: Sosospider
User-agent: Sosospider+
User-agent: Sosospider/2.0
User-agent: yodao
User-agent: youdao
User-agent: YoudaoBot
User-agent: YoudaoBot/1.0
USE AGENT specialmente dannosi o insistenti
Questi User agent sono considerati dannosi, sia perchè troppo insistenti che con scopi non di effettiva ricerca dell’utente
si consiglia di impostare blocco assoluto con: Disallow: /
# Block Bad Bots - USARE Disallow: /
User-agent: DotBot
User-agent: GiftGhostBot
User-agent: Seznam
User-agent: PaperLiBot
User-agent: Genieo
User-agent: Dataprovider/6.101
User-agent: DataproviderSiteExplorer
User-agent: Dazoobot/1.0
User-agent: Diffbot
User-agent: DomainStatsBot/1.0
User-agent: DotBot/1.1
User-agent: dubaiindex
User-agent: eCommerceBot
User-agent: ExpertSearchSpider
User-agent: Feedbin
User-agent: Fetch/2.0a
User-agent: FFbot/1.0
User-agent: focusbot/1.1
User-agent: HuaweiSymantecSpider
User-agent: HuaweiSymantecSpider/1.0
User-agent: JobdiggerSpider
User-agent: LemurWebCrawler
User-agent: LipperheyLinkExplorer
User-agent: LSSRocketCrawler/1.0
User-agent: LYT.SRv1.5
User-agent: MiaDev/0.0.1
User-agent: Najdi.si/3.1
User-agent: BountiiBot
User-agent: Experibot_v1
User-agent: bixocrawler
User-agent: bixocrawler TestCrawler
User-agent: Crawler4j
User-agent: Crowsnest/0.5
User-agent: CukBot
User-agent: Dataprovider/6.92
User-agent: DBLBot/1.0
User-agent: Diffbot/0.1
User-agent: Digg Deeper/v1
User-agent: discobot/1.0
User-agent: discobot/1.1
User-agent: discobot/2.0
User-agent: discoverybot/2.0
User-agent: Dlvr.it/1.0
User-agent: DomainStatsBot/1.0
User-agent: drupact/0.7
User-agent: Ezooms/1.0
User-agent: fastbot crawler beta 2.0
User-agent: fastbot crawler beta 4.0
User-agent: feedly social
User-agent: Feedly/1.0
User-agent: FeedlyBot/1.0
User-agent: Feedspot
User-agent: Feedspotbot/1.0
User-agent: Clickagy Intelligence Bot v2
User-agent: classbot
User-agent: CISPA Vulnerability Notification
User-agent: CirrusExplorer/1.1
User-agent: Checksem/Nutch-1.10
User-agent: CatchBot/5.0
User-agent: CatchBot/3.0
User-agent: CatchBot/2.0
User-agent: CatchBot/1.0
User-agent: CamontSpider/1.0
User-agent: Buzzbot/1.0
User-agent: Buzzbot
User-agent: BusinessSeek.biz_Spider
User-agent: BUbiNG
User-agent: 008/0.85
User-agent: 008/0.83
User-agent: 008/0.71
User-agent: ^Nail
User-agent: FyberSpider/1.3
User-agent: findlinks/1.1.6-beta5
User-agent: g2reader-bot/1.0
User-agent: findlinks/1.1.6-beta6
User-agent: findlinks/2.0
User-agent: findlinks/2.0.1
User-agent: findlinks/2.0.2
User-agent: findlinks/2.0.4
User-agent: findlinks/2.0.5
User-agent: findlinks/2.0.9
User-agent: findlinks/2.1
User-agent: findlinks/2.1.5
User-agent: findlinks/2.1.3
User-agent: findlinks/2.2
User-agent: findlinks/2.5
User-agent: findlinks/2.6
User-agent: FFbot/1.0
User-agent: findlinks/1.0
User-agent: findlinks/1.1.3-beta8
User-agent: findlinks/1.1.3-beta9
User-agent: findlinks/1.1.4-beta7
User-agent: findlinks/1.1.6-beta1
User-agent: findlinks/1.1.6-beta1 Yacy
User-agent: findlinks/1.1.6-beta2
User-agent: findlinks/1.1.6-beta3
User-agent: findlinks/1.1.6-beta4
User-agent: bixo
User-agent: bixolabs/1.0
User-agent: Crawlera/1.10.2
User-agent: Dataprovider Site Explorer
# Backlink Protector
User-agent: AhrefsBot
User-agent: Alexibot
User-agent: MJ12bot
User-agent: SurveyBot
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: rogerbot
User-agent: Baidu Spider
User-agent: SemrushBot
User-agent: Barkrowler
User-agent: Bytespider
#Attacchi ricevuti
User-agent: nbotModelli Personalizza file Robots.txt – Esempi
Qui di seguito alcuni esempi di utilizzo del file robots che nel tempo ho perfezionato. Si consiglia sempre di prendere un modello ed elaborarlo secondo le proprie esigenze!
NOTA: Tutti i Disallow: delle cartelle e degli URL possono penalizzare il numero di pagine indicizzate su Google.
- Controllo intermedio (buon compromesso)
- Controllo completo
- Modello Semplice
Questo modello ha un controllo intermedio. Abbiamo il Delay un po’ più importante, per non appesantire i server. E lo applichiamo ai bot più rilevanti. Google ovviamente ignora il comando delay.
Poi abbiamo tolto l’accesso ad alcune cartelle specifiche e url specifici di wordpress e plugin, per snellire le procedure. La cartella uploads deve rimanere leggibile, compresi eventuali cartelle anno, ma alcuni file di vari plugin usati non devono essere scansionati per trovare le immagini (e quindi li disattiviamo). Tutte le cartelle sotto /wp-content/uploads sono quelle generate da alcuni plugin. Non è essenziale bloccarle, ma può essere utile non far navigare troppo i bot. Non solo cartelle, ma anche url specifici, con comandi che non portano a pagine che dovrebbero essere indicizzate.
Infine blocchiamo la lista dei Bot dannosi, così da avere zero sovraccarico del sito da parte loro.
RICORDA DI MODIFICARE URL DELLA SITEMAP
# __ DELAY tempo __ (elencare tutti gli user, non mettere asterisco ----------
User-agent: Bingbot
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: MSNBot
User-agent: FacebookBot
User-agent: facebookexternalhit
User-agent: Meta-ExternalFetcher
User-agent: meta-externalagent
User-agent: facebookplatform
User-agent: Facebot
User-agent: Twitterbot
User-agent: Visionutils
User-agent: datagnionbot
User-agent: LinkedInBot
User-agent: Pinterestbot
User-agent: TelegramBot
User-agent: Yandex
User-agent: YandexBot
User-agent: YandexImages
#____Crawl-delay____
# IN SECONDI con standard da 5 = 5secondi | 60 = 1minuto | 86400 = 1giorno | 18000 = 5 ore
Crawl-delay: 60
# ___ DEFINIZIONE DEGLI AGENTI ___ in questo caso tutti ________
User-agent: *
#____Directory CONSENSO DISATTIVATO____
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/mu-plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/upgrade/
Disallow: /wp-content/upgrade-temp-backup/
# IMMAGINI e VIDEO --------------------------------------------
#____Directory CONSENSO UPLOADS e DISATTIVAZIONE SOTTO CARTELLE____
Disallow: /wp-content/uploads/avada-global-options/
Disallow: /wp-content/uploads/cfdb7_uploads/
Disallow: /wp-content/uploads/complianz/
Disallow: /wp-content/uploads/fonts/
Disallow: /wp-content/uploads/fusion-gfonts/
Disallow: /wp-content/uploads/fusion-icons/
Disallow: /wp-content/uploads/fusion-styles/
Disallow: /wp-content/uploads/fusion-scripts/
Disallow: /wp-content/uploads/fusionredux/
Disallow: /wp-content/uploads/ithemes-security/
Disallow: /wp-content/uploads/photo-reviews-cartella-img/
Disallow: /wp-content/uploads/rank-math/
Disallow: /wp-content/uploads/smush/
Disallow: /wp-content/uploads/uploads_woof_turbo_mode/
Disallow: /wp-content/uploads/wc-logs/
Disallow: /wp-content/uploads/woo-feed/
Disallow: /wp-content/uploads/woocommerce_transient_files/
Disallow: /wp-content/uploads/woocommerce_uploads/
Disallow: /wp-content/uploads/wpcf7_uploads/
Disallow: /wp-content/uploads/wpcode/
Disallow: /wp-content/uploads/wpcode-logs/
Disallow: /wp-content/uploads/wpo/
Disallow: /wp-content/uploads/wt-advanced-order-number-lock/
# DISATTIVA PER TUTTI QUESTI INDIRIZZI-------------------------------
Disallow: */?author=*
Disallow: */author/*
Disallow: /author*
Disallow: /author/
Disallow: */comments$
Disallow: /trackback/
Disallow: */trackback
Disallow: */trackback$
Disallow: /wp-trackback
Disallow: /feed/
Disallow: /feed/$
Disallow: /comments/feed/
Disallow: /?feed=
Disallow: */feed
Disallow: */feed$
Disallow: /wp-feed
# Disallow: /wp-comments
# Disallow: */replytocom=
# __ Avoid crawler traps causing crawl budget issues ________________
Disallow: /search/
Disallow: /search
Disallow: *?s=*
Disallow: *?p=*
Disallow: *&p=*
Disallow: *&preview=*
## _______sotto tipi di url delle varie categorie con filtro e prodotto con filtro
Disallow: /carrello/
Disallow: /pagamento/
Disallow: *add-to-cart*
Disallow: *product_count*
Disallow: *product_view*
Disallow: *?product_view*
Disallow: *product_orderby*
Disallow: *attribute_pa_*
Disallow: *?remove_item*
#____Directory FILE - CONSENSO DISATTIVATO____
Disallow: /wp-cron.php
Disallow: /admin-ajax.php
# __ PLUGIN aggiunti da bloccare robot _________________________
# ..plugin (WebToffee) ....
Disallow: /wp-content/uploads/wp-import-export-lite/
# _______ ROBOT INVADENTI da bloccare -----------------------
User-agent: DotBot
User-agent: GiftGhostBot
User-agent: Seznam
User-agent: PaperLiBot
User-agent: Genieo
User-agent: Dataprovider/6.101
User-agent: DataproviderSiteExplorer
User-agent: Dazoobot/1.0
User-agent: Diffbot
User-agent: DomainStatsBot/1.0
User-agent: DotBot/1.1
User-agent: dubaiindex
User-agent: eCommerceBot
User-agent: ExpertSearchSpider
User-agent: Feedbin
User-agent: Fetch/2.0a
User-agent: FFbot/1.0
User-agent: focusbot/1.1
User-agent: HuaweiSymantecSpider
User-agent: HuaweiSymantecSpider/1.0
User-agent: JobdiggerSpider
User-agent: LemurWebCrawler
User-agent: LipperheyLinkExplorer
User-agent: LSSRocketCrawler/1.0
User-agent: LYT.SRv1.5
User-agent: MiaDev/0.0.1
User-agent: Najdi.si/3.1
User-agent: BountiiBot
User-agent: Experibot_v1
User-agent: bixocrawler
User-agent: bixocrawler TestCrawler
User-agent: Crawler4j
User-agent: Crowsnest/0.5
User-agent: CukBot
User-agent: Dataprovider/6.92
User-agent: DBLBot/1.0
User-agent: Diffbot/0.1
User-agent: Digg Deeper/v1
User-agent: discobot/1.0
User-agent: discobot/1.1
User-agent: discobot/2.0
User-agent: discoverybot/2.0
User-agent: Dlvr.it/1.0
User-agent: DomainStatsBot/1.0
User-agent: drupact/0.7
User-agent: Ezooms/1.0
User-agent: fastbot crawler beta 2.0
User-agent: fastbot crawler beta 4.0
User-agent: feedly social
User-agent: Feedly/1.0
User-agent: FeedlyBot/1.0
User-agent: Feedspot
User-agent: Feedspotbot/1.0
User-agent: Clickagy Intelligence Bot v2
User-agent: classbot
User-agent: CISPA Vulnerability Notification
User-agent: CirrusExplorer/1.1
User-agent: Checksem/Nutch-1.10
User-agent: CatchBot/5.0
User-agent: CatchBot/3.0
User-agent: CatchBot/2.0
User-agent: CatchBot/1.0
User-agent: CamontSpider/1.0
User-agent: Buzzbot/1.0
User-agent: Buzzbot
User-agent: BusinessSeek.biz_Spider
User-agent: BUbiNG
User-agent: 008/0.85
User-agent: 008/0.83
User-agent: 008/0.71
User-agent: ^Nail
User-agent: FyberSpider/1.3
User-agent: findlinks/1.1.6-beta5
User-agent: g2reader-bot/1.0
User-agent: findlinks/1.1.6-beta6
User-agent: findlinks/2.0
User-agent: findlinks/2.0.1
User-agent: findlinks/2.0.2
User-agent: findlinks/2.0.4
User-agent: findlinks/2.0.5
User-agent: findlinks/2.0.9
User-agent: findlinks/2.1
User-agent: findlinks/2.1.5
User-agent: findlinks/2.1.3
User-agent: findlinks/2.2
User-agent: findlinks/2.5
User-agent: findlinks/2.6
User-agent: FFbot/1.0
User-agent: findlinks/1.0
User-agent: findlinks/1.1.3-beta8
User-agent: findlinks/1.1.3-beta9
User-agent: findlinks/1.1.4-beta7
User-agent: findlinks/1.1.6-beta1
User-agent: findlinks/1.1.6-beta1 Yacy
User-agent: findlinks/1.1.6-beta2
User-agent: findlinks/1.1.6-beta3
User-agent: findlinks/1.1.6-beta4
User-agent: bixo
User-agent: bixolabs/1.0
User-agent: Crawlera/1.10.2
User-agent: Dataprovider Site Explorer
# _______ ROBOT molto INVADENTI da bloccare con forza ! -----------------------
User-agent: AhrefsBot
User-agent: Alexibot
User-agent: MJ12bot
User-agent: SurveyBot
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: rogerbot
User-agent: Baidu Spider
User-agent: SemrushBot
User-agent: Barkrowler
User-agent: Bytespider
User-agent: nbot
Disallow: /
# SiteMaps --------------------------------------------
sitemap: https://SITE.com/sitemap.xml
sitemap: https://SITE.com/sitemap_index.xml
sitemap: https://SITE.com/video-sitemap.xmlRIn questo modello si ha un controllo assoluto su ogni accesso. Si disattiva l’accesso a tutti gli agenti e poi si offre ad ogni agente specifico per tipo di area. molto specifico.
RICORDARSI DI CAMBIARE URL DELLE SITEMAP
# DELAY tempo --------------------------------------------
User-agent: Bingbot
User-agent: bingbot/2.0
User-agent: Applebot
#____Crawl-delay____
# IN SECONDI con standard da 5 = 5secondi, quindi 86400 = 1giorno | 18000 = 5 ore
Crawl-delay: 60
# DISATTIVA TUTTI DI BASE --------------------------------------------
User-agent: *
Disallow: /
# CONCESSI AGENTI --------------------------------------------
#google -------------
User-agent: Googlebot
User-agent: Googlebot-Image
User-agent: Googlebot-Video
User-agent: Googlebot-Mobile
User-agent: Googlebot-News
User-agent: Storebot-Google
User-agent: Google-InspectionTool
User-agent: Mediapartners-Google
User-agent: GoogleOther
User-agent: Google-Extended
User-agent: FeedFetcher-Google
User-agent: AdsBot-Google
User-agent: AdsBot-Google-Mobile
# Motori di ricerca -------------
User-agent: Yandex
User-agent: YandexBot
User-agent: Bingbot
User-agent: bingbot/2.0
User-agent: Applebot
User-agent: DuckDuckBot
User-agent: Qwantify
# SPEED Page google -------------
User-agent: Chrome-Lighthouse
User-agent: Google Page Speed Insights
# SOCIAL MEDIA ---------
User-agent: Twitterbot
User-agent: facebookexternalhit
User-agent: facebookexternalhit/1.0
User-agent: facebookexternalhit/1.1
User-agent: facebookplatform/1.0
User-agent: Facebot/1.0
User-agent: Visionutils/0.2
User-agent: datagnionbot
User-agent: Twitterbot
User-agent: LinkedInBot/1.0
User-agent: Pinterest/0.1
User-agent: Pinterest/0.2
#____Directory CONSENSO TUTTO____
# scrivere solo Disallow: senza barra non blocca! o scrivere Allow: /
Allow: /
#____Directory CONSENSO DISATTIVATO____
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-content/languages
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/upgrade
# IMMAGINI e VIDEO --------------------------------------------
#____AGENTI____
User-agent: Googlebot
User-agent: Googlebot-image
User-agent: Googlebot-Video
User-agent: Chrome-Lighthouse
User-agent: Google Page Speed Insights
User-agent: Twitterbot
User-agent: facebookexternalhit
User-agent: Storebot-Google
User-agent: msnbot-media
User-agent: YandexImages
#____Directory CONSENSO UPLOADS e DISATTIVAZIONE SOTTO CARTELLE____
Allow: /wp-content/uploads
Disallow: /wp-content/uploads/complianz
Disallow: /wp-content/uploads/fusion-gfonts
Disallow: /wp-content/uploads/fusion-styles
Disallow: /wp-content/uploads/fusion-scripts
Disallow: /wp-content/uploads/ithemes-security
Disallow: /wp-content/uploads/smush
Disallow: /wp-content/uploads/wpcf7_uploads
# DISATTIVA PER TUTTI QUESTI INDIRIZZI-------------------------------
User-agent: *
Disallow: /feed/
Disallow: /feed/$
Disallow: /comments/feed
Disallow: /trackback/
Disallow: */?author=*
Disallow: */author/*
Disallow: /author*
Disallow: /author/
Disallow: */comments$
Disallow: */trackback
Disallow: */trackback$
# Disallow: /?feed=
# Disallow: */feed
# Disallow: */feed$
# Disallow: /wp-feed
# Disallow: /wp-comments
Disallow: /wp-trackback
Disallow: */replytocom=
# __ Avoid crawler traps causing crawl budget issues ________________
Disallow: /search/
Disallow: *?s=*
Disallow: *?p=*
Disallow: *&p=*
Disallow: *&preview=*
Disallow: /search
#____Directory FILE - CONSENSO DISATTIVATO____
Disallow: /wp-cron.php
Disallow: /admin-ajax.php
# __ PLUGIN aggiunti da bloccare robot _________________________
# ..plugin (WebToffee) ....
Disallow: /wp-content/uploads/wp-import-export-lite/
# ROBOT molto INVADENTI da bloccare con forza -----------------------
User-agent: AhrefsBot
User-agent: Alexibot
User-agent: MJ12bot
User-agent: SurveyBot
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: rogerbot
User-agent: Baidu Spider
User-agent: nbot
Disallow: /
# SiteMaps --------------------------------------------
sitemap: https://SITE.com/sitemap.xml
sitemap: https://SITE.com/sitemap_index.xml
sitemap: https://SITE.com/video-sitemap.xml
RUna versione semplice, con una linea base di accesso e non accesso.
RICORDA DI MODIFICARE URL DELLA SITEMAP
User-agent: bingbot
User-agent: baiduspider
User-agent: baiduspider-image
User-agent: baiduspider-mobile
User-agent: baiduspider-news
User-agent: baiduspider-video
User-agent: bingbot
User-agent: msnbot
User-agent: msnbot-media
User-agent: adidxbot
User-agent: slurp
User-agent: yandex
User-agent: Yandex
User-agent: YandexBot
User-agent: YandexImages
Crawl-delay: 60
User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /wp-includes/images/
Allow: /*/*.css
Allow: /*/*.js
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */disclaimer/*
Disallow: *?attachment_id=
Disallow: /privacy-policy
Disallow: /trackback/
User-agent: baiduspider
User-agent: baiduspider-image
User-agent: baiduspider-mobile
User-agent: baiduspider-news
User-agent: baiduspider-video
User-agent: msnbot
User-agent: msnbot-media
User-agent: slurp
User-agent: yandex
Disallow: /
sitemap: https://SITE.com/sitemap.xmlR