Ghid de optimizare site in 2020 – Partea IV: Comunica lui Google ce continut sa gaseasca prin robots.txt!

Ghid de optimizare site in 2020 – Partea IV: Comunica lui Google ce continut sa gaseasca prin robots.txt!

Daca in capitolul anterior din Ghidul ADfel Digital Marketing Partea a III -a am aflat cum sa il ajuti pe Google sa iti gaseasca continutul, de aceasta data vei afla cum sa ii spui lui Google prin strategii de SEO tehnic ce continut sa gaseasca si cum sa conditionezi crawlingul pentru paginile ce contin continut sensibil pentru businessul tau, pagini de calitate scazuta sau altele care irosesc bugetul de crawling, prioritizand acele pagini importante cu care doresti sa obtii pozitionari mai bune in SERP.

Cele mai bune strategii SEO implica utilizarea fisierului robots.txt unde spre exemplu un bun specialist precum cei de la ADfel Digital Marketing, una dintre firmele care ofera servicii SEO Bucuresti, va indica motoarelor de cautare, ce agenti de crawlare pot avea acces pe site si ce pagini pot accesa acestia.

Ce este un fisier robots.txt?

Fisierul robots.txt este un document cu extensia “.txt” plasat in directorul radacină al site-ului in care se specifica directive atat pentru crawlarea mai facila a paginilor prin mentionarea adresei sitemap, cat si impiedicarea crawlarii de catre agentii motoarelor de cautare a anumitor pagini, utilizand directive in fisierul robots.txt sau taguri noindex, astfel incat acestea sa nu apara in rezultatele cautarilor afisate de Google sau alte motoare de cautare.

Spre exemplu in cazul unui blog se pot bloca de la indexare pagini precum /admin, /autor sau /tag, iar in cazul magazinelor online pot fi blocate filtre care genereaza pagini dinamic, /admin, /cart, /cos /login etc si in ambele cazuri se pot impiedica crawlarea si indexarea paginilor create in backend din sectiunile de administrator, paginile generate de module si pluginuri sau pagini de tip template.

Pentru ce se utilizeaza robots.txt?

Fisierul robots.txt este utilizat in principal pentru a gestiona traficul ca sursa prin agentii de crawlare pe site și, de obicei, pentru a impiedica indexarea unei pagini de catre Google sau alte motoare de cautare, in functie de tipul de fisier:

O pagina web

In cazul unor pagini web, cum ar fi de tip HTML, PDF sau alte formate non-media pe care Google le poate citi, fisierul robots.txt poate fi utilizat pentru a gestiona traficul de sursa crawler in special daca capacitatea serverului este sufocat de acest trafic cu boti si nu cu trafic natural de utilizatori online, impiedicand spre exemplu accesul Googlebotilor.

Cu toate aceste anumite sectiuni dezvoltate prin elemente de codare precum div-uri sau alte sectiuni speciale ale unei pagini pot fi indexate, si daca nu se doreste acest lucru, este indicata folosirea tagului noindex.

Daca o anumita pagina web este blocata prin directive specificate in robots.txt, acestea poate aparea in continuare in rezultatele cautarii, dar rezultatul afisate in SERP nu vor avea o descriere fiind afisate sumar doar titlul si adresa URL.

Astfel fisierele media cum ar fi imagini, videoclipuri, audio, PDF-urile si alte fisiere non-HTML pot fi excluse de la indexare prin directivele specificate in robots.txt.

Fisiere media

Daca doresti ca bugetul tau de crawling sa fie “cheltuit” inteligent fara a fi utilizat pentru crawlarea si impiedicarea aparitiei in SERP a fisierelor de tip imagini, videoclipuri, audio, foloseste directivele de “disallow:”, insa este de retinut ca acest lucru nu va impiedica alti utilizatori sau alte site-uri sa creeze linkuri catre aceste pagini. Daca doresti sa fii eficient si din acest punct de vedere, este necesar ca accesul la aceste pagini sa fie restrictionat utilizatorilor sau sa fie folosita o interfata cu login cu username si parola.

Alte fisiere cu resurse

In dezvoltarea unui site se pot folosi diferite resurse, spre exemplu un font customizat, care fiind crawlat poate consuma bugetul de crawling si care nu te ajuta la o vizibilitate mai mare in Google. Din acest motiv pot fi blocate aceste tipuri de fisiere cu resurse mai putin importante, scripturi sau imagini. Cu toate acestea este bine sa stii ca elementele folosite intr-o pagina pot ajuta motoarele de cautare sa inteleaga mai bine despre ce este vorba in pagina si inainte sa iei o astfel de decizie tehnica SEO ar fi util sa consulti un specialist in optimizare site Google.

Ce trebuie sa eviti?

  • Utilizatorilor nu le place sa ajunga pe o pagina fara relevanta la cautarea lor, iar butonul de BACK sau iesirea din pagina va dauna procesului de pozitionare pe cuvintele cheie de interes. Asadar, este bine ca paginile fara relevanta sau generate in urma cautarilor interne din casuta de cautari sa nu fie accesate de agentii de crawlare ai motoarelor de cautare.
  • Pentru paginile ce contin informatii confidentiale sau sensibile pentru business foloseste metode de excludere mai sigure sau combinate atat cu directive de a nu crawlate, taguri noindex si pagini cu afisarea unei interfete cu login cu username si parola.

Speram ca iti va fi util acest ghid SEO si daca doresti sa aflii mai multe informatii despre cum sa aplici eficient tehnici si strategii SEO moderne, te invitam sa citesti urmatorul capitol, Partea V din Ghidul ADfel.ro.

Close Menu