Vai al contenuto
Agnello

Chiarimento su Robots, sito web e forum

Recommended Posts

Agnello

Giusto per capire visto che sono di coccio e non riesco a farmi un'idea chiara. Magari serve anche ad altri.

 

Io ho un sito in wordpress caricato in www.dominio.it e Invision nel sottodominio www.forum.dominio.it.

1) Essendo un dominio e un sottodominio, quindi due cose differenziate agli occhi di google, mi viene da pensare che dovrei mettere 2 robots, uno nella root e uno nella directory forum. E' corretto?

 

 

2) Attualmente ne ho uno nella sottodirectory con all'interno righe come Disallow: /forum/admin/

Ma siamo certi che debba essere cosi? Io sarei portato a scrivere /forum... se lo mettessi in public_html, ma se lo metto nella directory forum devo scrivere /forum nel robots?

 

Domande idiote sicuramente, ma grazie a chi mi chiarirà. :D

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
Agnello

OK, grazie. Probabilmente i siti che consigliando di usare un solo robots che contenga tutte le regole si riferiscono a siti con sottocartelle e non sottodomini.

Però quello che vorrei ancora capire è se i percorsi all'interno del robots dipendono dalla posizione in cui questo viene caricato.

Se voglo escludere la cartella public_html/prova1/prova2/prova3 contenuta nel sottodominio prova1 dovrò scrivere 

 

Disallow: /prova1/prova2/prova3/

 

sia se inserisco il robots nella root sia se lo inserisco nel sottodominio prova1 ??

Oppure inserendolo nel sottodominio prova1 dovrei scrivere 

 

Disallow: /prova2/prova3/ ?

 

Grazie Ale 

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
BomAle

se la directory principale (nell'ftp) del "sottodominio prova1" è public_html/prova1 dovrai applicare la regola Disallow: /prova2/prova3/ perchè il bot non potrà analizzare poi attraverso l'URL la directory http://prova1.dominio.it/prova2/prova3/

 

nel http://dominio.it/robots.txt invece dovrai semplicemente negargli l'accesso a "/prova1/prova2/prova3/*" se la sua directory principale è public_html/

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
Agnello

Ah, quindi mi stai dicendo che il mio attuale robots di invision, posizionato nel sottodominio  /public_html/forum, e che dice 

 

Disallow: /forum/admin/
Disallow: /forum/cache/
Disallow: /forum/converge_local/
Disallow: /forum/hooks/
Disallow: /forum/ips_kernel/

etc...

 

non sta bloccando niente? bene.

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
BomAle

Si infatti dovresti o togliere dalle regole /forum oppure rendere la cartella principale la public_html, ma hai detto che li hai impostato il sito... 

Quindi rimuovi il prefisso /forum dalle voci che hai elencato e avrai dei cambiamenti, penso in una settimana ma non sono certo, in tempi brevi.

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
Agnello

Grazie a tutti, ora ho sistemato. Ultimo dubbio: se nel robots disabilito la cartella cache, come nel robots standard di invision, come fanno i motori di ricerca a raggiungere la sitemap sitemap_topics.xml.gz che è proprio in quella cartella insieme alle altre?

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
Agnello

Si certo, quello lo legge. E li dentro c'è il link che rimanda al sitemap_topics.xml.gz contenuto nella cache, cartella a loro proibita. Se da webmastertool faccio leggere sitemap_topics.xml.gz tramite la funzione "visualizza come google", mi risponde 

 

forum.sito.org/cache/sitemap_topics.xml.gz     Web    Negata da robots.txt

Modificato da Agnello

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
BomAle

A vero... Prova con Allow: /cache/*.gz$

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=it

Modificato da BomAle

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
gianpiero

io credo che debbano essere leggibili, di fatto non vedo motivo perchè debbano essere corrotti
Visto che i xml.gz sono degli XML creati dal server si devono poter leggere

 

Agnello, ( meno male che non è Pasqua ma Natale :D )
anche a me ad un certo punto Google mi ha scassato le scatole con sta storia del robots, un tempo non me lo faceva

Io ho aggiunto in testa al robots:

User-agent: *Allow: /forum/cache/sitemap_core_core.xml.gzAllow: /forum/cache/sitemap_core_forums.xml.gzAllow: /forum/cache/sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_topics.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_core.xml.gzAllow: /forum/index.php?app=core&module=global&section=sitemap&sitemap=sitemap_core_forums.xml.gzDisallow: /forum/cache/e poi di seguito tutti i disallow classici previsti ....

Nota :  gli ALLOW particolari vanno messi prima dei DISALLOW se il file o la cartella è annidata

 

Errore svanito

Modificato da gianpiero

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
Agnello

 

 

ps: la sitemap viene inviata via php quindi a google non interessa avere accesso in forum.sito.org/cache/sitemap_topics.xml.gz, questi file servono al php per processarli penso... non vengono direttamente scansionati da google!

 

 

 

Grazie. Se le cose stanno cosi direi che non c'è problema, ho aggiunto comunque per sicurezza le regole di Giampi che ringrazio anche per il supporto privato che ogni tanto mi da. :D

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti
gianpiero

esito ? ancora errore ? magari bisogna attendere un paio di giorni ...

Modificato da gianpiero

Condividi questo messaggio


Link di questo messaggio
Condividi su altri siti

Crea un account o accedi per lasciare un commento

You need to be a member in order to leave a comment

Crea un account

Iscriviti per un nuovo account nella nostra comunità. È facile!

Registra un nuovo account

Accedi

Sei già registrato? Accedi qui.

Accedi Ora

×