Weboldal készítés - blog
 404: Hiba, az oldal nem található. Ha van weboldalad, elkerülhetetlen. De okoz-e galibát a 404-es hiba?

404 Hiba - Az oldal nem található. Okoz ez problémát a weboldaladnál?

Ha nagyon tréfás kedvemben lennék, azt mondanám, összességében valószínűleg a “404 Hiba. Az oldal nem található” tartalmú weblapok benne vannak a legnépszerűbb top 10-ben az interneten, gyakran futsz bele te is valószínűleg.
Elkerülhetetlen a jelenléte? Vajon katasztrófát is jelent egyben? Hogyan kezeld, hogy előnyöd is származzon belőle?

Rögtön az első kérdésre a válasz igen, mindjárt látni fogod azt is hogy miért. De előtte nézzük, mi is ez a HTTP 404.
A 404-es 'hibakód' egy szabványos HTTP státusz kód a kiszolgálótól a kliens felé, amit akkor küld, ha a keresett erőforrás nem található a szerveren.
Azért írtam erőforrást, mert ez nemcsak teljes weboldalra vonatkozhat, hanem annak elemeire is, fájlokra, képekre, stb. A hibakód kifejezés pedig azért került aposztrófok közé, mert ez technikailag nem hiba, hanem állapot.
Baromi tudományos lett, magyarul arról van szó, például ha az általad beírt weboldal cím, vagy egy link nem mutat valós tartalomra, akkor kapod ezt a 404-es hibát.
Oké. Ha nincs, hát nincs, több is veszett Mohácsnál, megyünk tovább, gondolhatnánk, nem nagy ügy.

Nincs jó hírem, de az. Ha weboldal tulajdonos vagy, ne ess abba a hibába, hogy elfogadod azt, hogy ez velejárója egy weboldalnak. Kezelned kell, hogy ne jelentsen hátrányt.

Mi lehet a 404-es hiba oka?

  1. Az URL helytelenül lett beírva a böngésző címsorába.
  2. A hivatkozott oldal vagy fájl nem létezik.
  3. A fájl vagy oldal áthelyezésre került, de az átirányítás nem lett kezelve.
  4. A domain név már nem elérhető, nincs mögötte létező weboldal.
  5. Szerverhiba is okozhatja ezt, bár ez ritka.

Az első pontban ott a fő válasz arra a kérdésre, hogy miért elkerülhetetlen a 404-es hibakód, a felhasználók kezét nem foghatod állandóan, hogy helyesen írják be az oldal címét, amit szeretnének megnézni.
A harmadik pont pedig elég kritikus, az ilyen tartalom-áthelyezéseket, URL módosításokat 301-es átirányítással kezelni kell, később szólunk még róla. Azon túl, hogy bosszantó a felhasználóknak, a SEO-t is befolyásolja, nemes egyszerűséggel eltűnhet a keresőrobotok elől a tartalom.

A 404 hibakód hatással van a SEO-ra?

A Google arra a kérdésre, hogy a 404-es hiba hátrányt jelent-e, azt a választ adta, hogy nem jelent negatív rangsorolási tényezőt, mert természetes velejárói az internet használatának. A weboldalad többi, működő oldalának rangsorolását ezek a hibák nem befolyásolják.
Hátra is dőlhetnénk megint, mondván a sztori kipipálva.

De ahogy már megszokhattuk, a kép itt is árnyaltabb.

Mik azok a 404-es hiba által okozott problémák, amiknek közvetetten mégis hatása lehet a SEO-ra?

  1. A felhasználói élmény. Nem mindegy, hogy egy ilyen helyzetben tájékoztatást, iránymutatást, ajánlatot kap a látogató, amivel rá tudod venni, hogy maradjon az oldaladon, vagy valami semmitmondó hibaüzenetet tolsz az arcába, aminek hatására egyből nyomja a “vissza” gombot.
  2. A visszafordulási arány. Szorosan összefügg az előző ponttal, és ezt bizony már figyeli és értékeli a Google. Amennyiben pánikszerűen hagyják ott az oldaladat ilyen hibák miatt, ez jelzés lesz a keresőknek, mégpedig nem pozitív.
  3. A feltérképezési keret (crawl budget). Röviden arról van szó, hogy keresőrobotok nem szükségszerűen térképezik fel minden alkalommal a teljes weboldaladat, hanem annak csak egy részét, természetesen ez egy erőforrás-igényes dolog. Persze ennek szerepe nagyobb tartalommal bíró oldalaknál van leginkább, de érdemes itt is megnézni, mit mond a Google a crawl budget-ről: According to our analysis, having many low-value-add URLs can negatively affect a site's crawling and indexing.
    Magyarán ha sok az alacsony hozzáadott értékkel rendelkező oldal a weboldaladon, ezek negatív hatással lehetnek a feltérképezésre és az indexelésre. És itt megemlítik külön az alacsony minőségű tartalommal rendelkező oldalakat, illetve a lágy 404-es hibát (ezekre is visszatérünk még).
  4. A link-erő. Ehhez is csak egy rövid magyarázat, SEO szempontból fontosak egy weboldalra mutató linkek és a belső linkek, ez nem új. Ezek a linkek a Google szemében értéket képviselnek, és ennek az értéknek egy részét megkapja az oldal, amire a link mutat. Ha az oldal, amire a link mutat egy nem létező oldal, akkor ezt az értéket elnyelte a fekete lyuk, nem profitálsz belőle semmit.

Tehát van jó néhány tényező, ami miatt mégis foglalkozni kell a 404-es hiba kérdésével.

Első teendő: találd meg a 404-es hibát tartalmazó oldalakat!

Nem árulok el nagy titkot, ha azt mondom, ez manuálisan nehezen kivitelezhető feladat.
De sok eszköz áll rendelkezésre, ami segít, kettőt megmutatok.

A legkézenfekvőbb eszköz a hibakeresésre: a Google Search Console

Bízom benne, hogy az oldalad szinkronizálva van vele, ha nincs, sürgősen orvosold.
A Search Console-ban bal oldalt nyisd le az Indexelés fület és kattints az Oldalakra.
Ha itt lejjebb görgetsz, látni fogod az okokat, hogy bizonyos oldalak miért lettek az indexelésből kizárva.
A megfelelő sorra kattintva pedig meg tudod nézni a kizárt oldalakat is:

Itt találod a Google Search Console-ban a 404-es hibákat

Egy másik eszköz, ami jól használható a 404-es hibák felderítésére (is): a SEO Spider

Alapvetően ez egy fizetős program, de néhány megkötéssel használható ingyen is. Innét tudod letölteni a Screaming Frog SEO Spider szoftvert.
A telepítése nem igényel különösebb szakértelmet, ha végeztél vele, indítsd el.
A Screamingfrog logótól jobbra van egy kis mező, oda a földgömb után írd be a domain nevet, amit ellenőriztetni szeretnél. Majd szintén jobbra a Start gombot megnyomva a SEO Spider lefuttatja a teszteket.
Ha végzett, válaszd ki a zölddel jelölt Response Codes gombot, és bal oldalt a legördülő listából a Client Error (4xx) lehetőséget:

A Screaming Frog 404 hiba riportja. Ezzel az eszközzel nemcsak az "oldal nem található" hibákat tudod ellenőrizni.

És látni fogod, hogy mik azok az oldalak, képek, stb, amik 404-es hibát adtak vissza, tehát nem találhatóak.

Ha ennek az eredménye és a Google SC eredménye nem egyezik, azon ne lepődj meg, a SC-ban nem biztos, hogy a pillanatnyi aktuális állapotot látod, a SEO Spider viszont végigpörget mindent (az ingyenesség korlátain belül, ami 500 oldal).

Oké, most már tudod, hogy vannak ilyen hibák, de hogyan tovább?

Második teendő: javítsd ki a hibás oldalakat!

Mik azok az okok, ami miatt a szoftveres ellenőrzés 404-es hibát találhatott és ezeket hogyan orvosold?

  1. Az első, és legkönnyebben javítható dolog: azt ellenőrizd, hogy az URL-ekben nincs-e elírás, a linkek href attribútumában nincs-e valami huncutság.
  2. Ha olyan linket találsz, ami egy nem szándékosan eltávolított oldalra mutat, állítsd vissza azt az oldalt egy korábbi biztonsági mentésből, vagy ha ilyened nincs, készíts helyette másikat. Ekkor viszont vedd figyelembe, hogy az új tartalomnak relevánsnak kell lennie.
  3. Amennyiben egy oldalt, tartalmat átköltöztettél egy másik oldalra, és ezután megszüntetted, ez is okozhat 404-es hibát. Ilyenkor a régi URL-t mindenképp irányítsd át az új oldalra, jelezvén a keresőrobotoknak, hogy a tartalom elköltözött, és hol található. Ezt a már említett 301-es átirányítással tudod megtenni. A 404-es hiba javításához 301-es átirányítással a weboldal optimalizálás blogban találsz megoldást.

Könnyen kezelhető, nagy támogatottságú, sokoldalú weboldalra gondoltál?

És a tiéd mégsem ilyen.

Magad vágtál bele a weboldalad átalakításába, de elakadtál?

Ne pazarold az idődet. Bízd rám. Segítek.

A lágy 404-es hiba problémája

Itt muszáj lesz egy kicsit jobban belemennem a technikai részletekbe.
Ennek a megértéséhez tisztában kell lenni azzal, hogy ha egy oldal azt a szöveget tartalmazza, hogy “Az oldal nem található”, annak semmi köze ahhoz, hogy a szerver milyen státusz kódot ad vissza a böngészőnek, vagy a keresőrobotoknak.

A lágy 404-es nem egy hivatalos hibakód, hanem egy olyan jelenség, amikor a böngésző nem a 404-es kódot kapja vissza a kiszolgálótól, hanem 200-ast (ennek a jelentése az, hogy az oldal rendben van, működik, megtalálható), annak ellenére, hogy a keresett tartalom nem létezik az oldalon.

Mutatom, miről van szó, a tartalom ugyanaz. Mindkét képnek a jobb alját nézd, keresd a Status Code-ot:

Lágy HTTP 404, az kiszolgáló nem megfelelő státuszkódot ad vissza

Ez pedig a valós 404-es hiba a megfelelő http 400-as státusz kóddal

Megtalálod a különbséget? Ez egy kisarkított példa, és egy kicsit trükköztem is talán a demó kedvéért.

Az első esetben nincs kezelve a 404-es státuszkód, a másodikban igen, holott ugyanarról az URL-ről beszélünk. Ha te, mint felhasználó erre az oldalra kattintasz, vagy ennek az oldalnak az URL-jét írod be a böngészőbe, akkor azt fogod látni, hogy az oldal nem található. Viszont a keresőrobot (és a böngésződ) itt azt a visszajelzést kapja, hogy az oldal rendben van, HTTP 200.

Most akkor létezik az oldal, vagy sem?

A második eset: pont ezért fontos, hogy egyértelműen jelezzük, hogy az oldal valóban nem található, HTTP 404.

Remélem, sikerült rávilágítanom a két példa közötti különbségre.

Hogyan állhat elő ez a helyzet?

Természetesen nem csak akkor, ha ezt a szöveget tartalmazza egy oldal a rendes tartalom helyett:

  • Az oldal eltávolításra került, és egy irreleváns oldalra lett átirányítva. Vannak, akik tartanak a 404-es kódtól, tévesen azt gondolván, hogy ez valami rossz, és ezért inkább átirányítják az eltávolított oldalakat, jellemzően a főoldalra.
  • Nincs tartalom az oldalon, vagy nagyon gyenge, kevés. Az én példámban pont ez a szitu. Ezeket az oldalakat is lágy 404-esként fogja megjelölni a keresőrobot.

És mi ezzel a probléma?

Legfőképpen az, amit már említettem, hogy a feltérképezés erőforrás-igényes dolog. Mivel a keresőrobotok 200-as státuszt kapnak, ezért elkezdik feltérképezni ezeket az oldalakat.
Itt belép a feltérképezési keret, mint tényező. Ha sok ilyen lágy 404-es oldalad van, ezek is viszik az amúgy is szűkös erőforrásokat. Egy valódi 404-es státusszal rendelkező oldalt nem térképeznek fel a keresők.
Hidd el, a Google-nak, vagy más keresőnek esze ágában nincs végtelen ideig járkálni az oldaladon. Ugyanúgy, ahogy a felhasználóknak, a keresőrobotoknak is zavaros lesz, ha nem azt találják az oldalon, amire “számítottak”
Továbbá ezek a hibák olyan jelzések a keresőknek, amik arról árulkodnak, hogy az oldal nincs, vagy hanyagul van karbantartva, és nagy ívben tesz a felhasználói élményre.

Végső soron azt kockáztatod, hogy  ne a valóban a lényeges oldalaidat térképezze fel és jelenítse meg a kereső a találati listákon.

Összefoglaló

Mi a HTTP 404-es hiba?

Technikai oldalról nézve HTTP 404 valójában nem hiba, hanem egy állapotkód, ami azt jelzi a böngészőknek és a keresőrobotoknak, hogy a keresett erőforrás, weboldal, fájl nem található.

Mi a különbség a lágy és a valós 404-es között?

A lágy 404-es hiba egy olyan állapot„ amikor a keresett oldal valójában nem található, de nem a megfelelő 404-es státusz kódot adja vissza a kiszolgáló, hanem a 200 OK státuszt. Lehet, hogy a hiba szövege helyesen jelenik meg a webhely látogatójának, de a keresőrobotoknak nem, ami azt jelenti, hogy folytatják az oldalak feltérképezését, időt és erőforrásokat pazarolva.

Miért szükséges ezekre figyelmet fordítani?

Mind a valós, mind a lágy 404-es hibáknak befolyásuk lehet az oldal keresőoptimalizálására, tehát ezeket kezelni és javítani kell.