El terme «rastrejador» (de vegades anomenat «robot» o «aranya») és el terme genèric amb què s’anomena qualsevol programa que s’utilitzi per trobar i analitzar automàticament llocs web seguint enllaços entre pàgines web.
El rastrejador principal de Google és el robot de Google.
El robot de Google és el nom genèric dels dos tipus de rastrejadors web de Google:
Pots saber quin t’ha rastrejat consultant la cadena d’user-agent de la sol·licitud. Com que ambdós rastrejadors segueixen les regles del mateix token de producte (token d’user-agent) de robots.txt, no pots triar de manera exclusiva un o altre al teu fitxer robots.txt.
En la majoria dels casos, de mitjana el robot de Google no hauria d’accedir al vostre lloc més d’una vegada cada pocs segons. No obstant això, si es produeixen retards, potser aquesta freqüència de rastreig augmenti lleugerament durant breus períodes.
El robot de Google està dissenyat per executar-se simultàniament en milers d’ordinadors perquè així és més eficient i es pot adaptar al creixement de la web.
A més, per consumir menys ample de banda, molts dels rastrejadors s’executen en ordinadors que estan a prop dels llocs que tenen possibilitats de rastrejar. Per tant, els vostres registres poden mostrar visites de diverses adreces IP, totes amb l’user-agent del robot de Google. A cada visita, s’intenten rastrejar tantes pàgines del teu lloc com permeti el servidor. Si el vostre lloc té problemes per suportar totes les sol·licituds de traça de Google, podeu reduir la freqüència de traça.
El robot de Google rastreja contingut principalment des d’adreces IP als Estats Units. Si el robot de Google detecta que un lloc bloqueja les sol·licituds dels Estats Units, podeu intentar fer el rastreig des d’adreces IP ubicades a altres països. La llista d’adreces IP que utilitza el robot de Google per detectar aquests bloquejos està disponible en format JSON.
El robot de Google rastreja contingut amb HTTP/1.1 i, si el lloc ho admet, amb HTTP/2.
No hi ha cap avantatge de posicionament en funció de la versió del protocol que s’utilitza per rastrejar el teu lloc. No obstant això, el rastreig mitjançant HTTP/2 pot estalviar recursos informàtics (com la CPU o la RAM) al vostre lloc i al robot de Google.
El robot de Google pot rastrejar els primers 15 MB de fitxers HTML o de fitxers de text compatibles. Cada recurs a què fa referència l’HTML, com CSS i JavaScript, s’obté per separat, i cada obtenció està subjecta al mateix límit de mida del fitxer. Després dels primers 15 MB del fitxer, el robot de Google deixa de rastrejar i només té en compte els primers 15 MB del fitxer per indexar-lo. El límit de mida del fitxer s’aplica a les dades sense comprimir. És possible que altres rastrejadors de Google, com el robot de Google per a vídeos i el robot de Google per a imatges, tinguin límits diferents.
Important: la versió mòbil ha d’estar perfectament optimitzada per tal que el robot de Google en faci una valoració positiva i no detecti errors.
Resulta pràcticament impossible mantenir un servidor web en secret limitant-te a no publicar cap enllaç que hi porti. Per exemple, quan un usuari segueixi un enllaç del vostre servidor «secret» a un altre servidor web, és possible que el vostre URL «secreta» aparegui a l’etiqueta referent, per la qual cosa l’altre servidor web podria emmagatzemar-la i publicar-la al registre de referents. A més, a la web hi ha molts enllaços obsolets i trencats. Si algú publica un enllaç incorrecte al vostre lloc o no actualitza altres enllaços per reflectir canvis que heu fet al vostre servidor, el robot de Google intentarà rastrejar un enllaç incorrecte del vostre lloc.
Si no voleu que el robot de Google rastregi contingut del vostre lloc, teniu diverses opcions. Recorda que no és el mateix impedir que el robot de Google rastregi una pàgina, evitar que la indexi o impedir que tant rastrejadors com usuaris puguin accedir-hi.
Hi ha rastrejadors que falsifiquen la cadena d’user-agent del robot de Google, per la qual cosa, abans de bloquejar-ho, comprova que les sol·licituds problemàtiques que detectis de debò procedeixin de Google. La millor manera de fer-ho és mitjançant una petició de DNS invertida de la IP d’origen de la sol·licitud o comparant la IP d’origen amb els intervals d’IP del robot de Google.
OFICINA BARCELONA
C/ d'Espinoi, 8-10 local 1
08023 Barcelona
OFICINA VIC
C/ Camí de la Tolosa, 9, oficina 8 (Magnet Coworking)
08500 Vic
Newsletter
INFORMA’T de tot el que fem
PROGRAMA KIT DIGITAL COFINANCIADO POR LOS FONDOS NEXT GENERATION (EU) DEL MECANISMO DE RECUPERACIÓN Y RESILIENCIA.