Http Status Code mit PHP auslesen

Heute mal wieder was aus der Praxis, mal wieder etwas mit Code. Da ich derzeit im Qualitätsmanagement arbeite hat man natürlich eine ganz andere Sicht auf Projekte. Viel Code kommt da nicht mehr zusammen. Letzte Woche hatte ich aber mal wieder ein Anliegen, das ich in PHP verpacken wollte. Meine Anforderungen kann man ja schon aus dem Titel erkennen, ich fasse sie aber trotzdem schnell zusammen.

Ich habe eine Reihe von Webseiten, die für mich eine Black Box sind. Jetzt würde ich gerne rausfinden, ob sie den richtigen HTTP Status Code zurückliefern, denn auch wenn man im Browser alles korrekt eingezeigt bekommt, kann es sein, dass ein 404er im Header angezeigt wird. Für uns Anwender ist das eigentlich ziemlich egal, die Suchmaschinen oder besser die Suchmaschine wird diese Seite aber nicht in den Index mit ausnehmen. Das Testen auf den richtigen Status kann also relativ wichtig sein, wenn man seine Seiten gut positionieren will.

Die meisten PHP Methoden, wie fgets, file oder file_get_contens, kümmern sich nur um den Content eines Http Requests, der Header bleibt hierbei außen vor. Zusätzlich ist es meistens auch nicht erlaubt diese für den Zugriff auf externe Dateien zu verwenden. Hier hilft uns aber ein immer wieder gern verwendetes PHP Modul cURL. cURL ist eigentlich ähnlich zu wget, das ihr wohl alle kennt. Ich kann Dateien aus dem Internet laden, ohne dabei einen Browser verwenden zu müssen.

Gehen wir also davon aus, dass wir cURL installiert haben und es verwenden können. Dann würde unsere Funktion wie folgt aussehen.

public static function getHttpCode( $url )
{
    $ch = curl_init();

    // set URL and other appropriate options
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_HEADER, 1);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

    curl_exec($ch);
    $info = curl_getinfo($ch);
    curl_close($ch);

    return $info['http_code'];
}

Kein Hexenwerk würde ich mal sagen, trotzdem habe ich in meiner $info Variablen alle Informationen, die ich brauche, um meine Anfrage auf Korrektheit zu überprüfen. Ihr könnt auch diesen Array ja mal genauer ansehen, vielleicht braucht ihr das ein oder andere Element noch an einer anderen Stelle.

Diese Funktion solltet ihr einfach einmak täglich über eure Sitemap laufen lassen, in der Hoffnung, dass ihr kaputte Dateien vor Google findet.

17 Comments

Das geht auch genauso gut mit dem PHP-stream-wrapper – zumindest ab PHP 5.3:

$fp = fopen( ‚http://example.com‘ );
var_dump( stream_get_meta_data( $fp ) );

Und ueber die stream-context-Optionen lassen sich ja sowieso request-type, und weitere Optionen definieren.

Moin Kore, da würde ich doch mal sagen, dass ich wieder einen neuen Grund gefunden habe, mich auf 5.3 zu freuen. Nur leider bin ich mir sicher, dass es noch eine Weile dauert, bis wir es im Produktiveinsatz bei uns verwenden werden. Aber hier im Blog wird PHP 5.3 wohl eine Menge neue Artikel produzieren.

Wie Johannes neulich hier geschrieben hat ginge das Auslesen der HTTP-Response-Headers auch mit der globalen Variable $http_response_header nach z.B. file_get_contents($url) (falls man mal das cURL-Modul nicht zur Hand hat).

Ups, zu langsam 🙂 Auf php.net steht allerdings nichts dazu ab welcher PHP-Version es $http_response_header gibt.

Der ZF HTTP-Client bietet sich übrigens als toller Wrapper an, der verschiedene Implementationen als Adapter zulässt. Auch schön einfach. Hab ich hier neulich noch benutzt: http://phphacker.net/2009/04/27/das-experiment-wordpress-security-und-das-zend-framework/

Pingback: Http Status Code mit PHP auslesen

Das ganze geht übrigens noch viel einfacher mit der Funktion get_headers() 😉

Siehe hier: http://de.php.net/get_headers

@Dominik: Da warst du leider 30min zu spät 😉 Der Pingback war schneller. Aber ich bin froh, dass ich das ganze in eine Funktion gekapselt habe und ich es jetzt ohne Probleme austauschen kann 😉

Was für ein HTTP-Request setzt get_headers() denn ab? Das wird irgendwie nirgends erwähnt. Denn: In meinem verlinkten Post musste ich die Feststellung machen, dass ein paar Applikationen auf einen HEAD-Request mit einem forbidden antworten. Andere wiederum liefern Schrott aus, wenn kein Bekannter User-Agent gesetzt ist (oder schlimmer: Wenn PHP als User-Agent daherkommt).

Wie wäre es einen Socket mit fsockopen zu erstellen und dann den HTTP-Request zu senden?
Man ist unabhängig von Curl und kann mit jedem Header rumspielen wie man will.

@Tobias: Klar, das mag wohl gehen, aber würde man hier nicht das Rad neu erfinden?

Wenn man dann noch die Funktion get_headers( $url ); erweitert, also einen weiteren parameter anhängt get_headers( $url, 1 );, werden die keys mit dem Namen besetzt anstelle von Indexzahlen (also anstelle von [1] => ‚text/xml‘ steht dort nun [Content-Type] => ‚text/xml‘). Hilft zB sehr bei debuggen mit print_r oder var_dump.

So kommt man auch nicht unbedingt durcheinander, da nciht alle server alles in der immer gleichen reihenfolge zurücschicken.

Abgesehen davon funktioniert das erst ab PHP 5… leider. Ansonten halt den curkl code nehmen.

ich glaube ich schreibe heute Abend noch einen Artikel „Die 120 Methoden einen HTTP Header auszulesen“. Ich veröffentliche den dann aber erst in 4 Wochen oder so, dann denken alle, die Ideen kamen von mir 😉

Gib uns die 4 Wochen Zeit und wir finden noch mehr als 120 Möglichkeiten *gg*

Wenn ihr die 120 Möglichkeiten beisammen habt, bitte auch ein kleiner Ausflug zu den „performanten“ Varianten.. im produktiven Einsatz freut man sich dann über jede gesparte MS 😉

@Nils wenn du es nicht neu erfinden möchtest, kannst du auch das PEAR-Paket HTTP-Request nutzen. Dort wird der socket implementiert und man ist fast genauso flexibel.

Der Firefox in aktueller Version zeigt den Inhalt von 404-Dokumenten übrigens inzwischen nicht mehr an. Sei nur so der Vollständigkeit wegen erwähnt.

Http Status Code mit PHP auslesen

Nils Langner

17 Comments

Leave a Comment. Antworten abbrechen

Link vorschlagen.

Link erfolgreich vorgeschlagen.

Das Buch zum Blog.

Link vorschlagen

Unsere neusten Kommentare

Nils Langner

Http Status Codes

Statische Code-Analyse mit dem PHP Code Sniffer

PHP Code Sniffer – Parameter und eigene Regelsets (Standard)

17 Comments

Leave a Comment. Antworten abbrechen

Link vorschlagen.

Link erfolgreich vorgeschlagen.

Das Buch zum Blog.

Link vorschlagen

Unsere neusten Kommentare