Skip to content

Honig für Kommentar Spammer

Janek hat mich auf Google+ wieder auf etwas gebracht, was ich schon lange mal testen und implementieren wollte: Einen Honeypot für den Kommentarbereich.

Ein Honeypot (Honigtopf) ist eine ziemlich einfache Methode, um Spambots zu erkennen, die automatisiert Kommentare abgeben wollen. Obwohl diese Methode schon mindestens seit 5 Jahren im Einsatz und beschrieben ist, scheint sie laut meinen Tests immer noch sehr effektiv zu sein.

Funktionsweise

Der Honig für die Bots wird ausgelegt, indem man im Kommentar Formular eine Eingabezeile hinterlegt, die per CSS versteckt wird. Echte Besucher des Blogs, die kommentieren wollen, sehen diese Eingabe also nicht und lassen sie folgerichtig leer. Kommentar Bots haben aber die Eigenschaft, dass sie alle Eingabefelder zu füllen versuchen, um sicher zu stellen, dass der Kommentar nicht durch ein benötigtes aber leeres Feld abgewiesen wird. Eine weitere Eigenschaft ist, dass Bots nur das reine HTML auslesen und somit nicht erkennen können, dass ein Feld gar nicht sichtbar ist (wenn man dies über eine externe CSS Datei macht).

Bots müssen Kommentarfelder sogar analysieren, damit sicher gestellt ist, dass die zu bewerbende URL in der URL Eingabe ist, der Text im Kommentarfeld usw. Somit sollte die Honeypot Eingabe einen sinnvollen Namen und ein Label haben. Mein  Honigtopf fragt im Blog scheinbar die Telefonnummer ab und in der Tat füllen die Bots diese Eingabe mit Zahlenkombinationen.

Im Einsatz

Ich habe den Honeypot in mein CommentSpice Plugin eingebaut und zeichne die Resultate im Moment auf. Die Testergebnisse sind äußerst zufrieden stellend: Die Datenbank füllt sich mit Kommentaren, die von CommentSpice als Bot erkannt wurden. Die Fehleranfälligkeit (False Positives) ist technisch bedingt extrem gering, eigentlich kann der Honigtopf nur in erzwungenen Situationen falsch anschlagen.

Der Vorteil des Honigtopfes (im Vergleich zum Bayes z.B.) ist also eine sehr gute Trefferquote ohne dabei die Datenbank benutzen und unter Last legen zu müssen (wenn man das Logging ausschaltet). Ich lasse den Kommentarbereich nun also zuerst von CommentSpice überprüfen, danach vom Bayes und ganz zum Schluss vom normalen Antispam Plugin (das bisher schon nichts zu tun hatte).

Resultat: Im Bayes Papierkorb ist jetzt schon länger nichts mehr zu finden! Die Spam Kommentare, die sich dort bisher sammelten, wurden also bereits vom Honeypot abgefangen. Im Spamlog kann man das auch schön nachvollziehen. :-)

Bayes Spamschutz im Blog

Das Serendipity Bayes Plugin, das Kommentar- und Trackback Spam aus dem Blog entfernen kann, ist schon etwas älter. Schon 2009 berichteten Dirk, Robert und Matthias darüber.

Das Bayes AntiSpam Plugin hat den Vorteil, das es ohne Zugriff auf einen externen Server auskommt. Das normale AntiSpam Plugin benutzt am besten die Akismet Datenbank, wodurch allerdings Kommentar Daten an einen fremden Service übermittelt werden. Bayes bleibt komplett lokal, wodurch man einige kritische Datenschutz Probleme behoben hat. Somit stand das Bayes Plugin schon länger auf meiner Todo Liste der in diesem Blog zu installierenden Plugins.

"Bayes Spamschutz im Blog" vollständig lesen

Manueller Kommentar SPAM

Als ich mein Blog nach einer längeren Pause wieder eröffnete, wunderte ich mich schon über dieses Phänomen: Offenbar gibt es SEO Menschen, die Kommentare in Blogs hinterlassen, die oft keinen wirklichen Inhalt haben, aber einen Link auf eine "kommerzielle Seite". Jedenfalls ist der Link dann kein Blog oder eine Seite, die ein "normaler Kommentator" wählen würde.

Seit dem ich in letzter Zeit wieder etwas mehr verblogge, habe ich auch wieder mehr SPAM Kommentare im Blog. Die Bots sind kein Problem, die scheitern in 99.9% der Fälle sofort an den AntiSpam Maßnahmen. Es sind wirklich die realen Personen mit den fragwürdige Kommentaren, die Probleme bereiten, da man hier schwer unterscheiden kann, was ein echter Kommentar ist und was nur eine SEO Maßnahme.

Hier mal ein aktuelles und sehr eindeutiges Beispiel aus meinem Blog: Bei einem 4 Jahre altem Artikel über eine (inzwischen 4 Jahre alte aber) damals neue Technik (Falcon Chipsatz der XBox) erscheint folgender Kommentar:

Die Falcon ist einfach genial toll das teil mal aus der Nähe zu betrachten.

Der Name des Autors matched dabei in ungefähr einem Online Portal, das sich mit Konsolen und Spielen beschäftigt und als URL des Autors verlinkt ist. Hier ist es sehr offensichtlich, dass gerade ein "Besitzer" eines Online Portals heute sicher nicht mehr nach News zum 4 Jahre alten Falcon Chipsatz sucht und dazu kommentieren möchte. Dieser Kommentar wurde von meinen AntiSpam Maßnahmen nicht heraus gefiltert, da er wie ein "normaler Kommentar" ist und nicht falsch macht.

Um zu verstehen, warum Online Anbieter sich die Mühe machen, manuelle Kommentare dieser Art überall zu hinterlassen, muss man verstehen, warum gerade Blog Kommentare recht wertvoll für den eigenen PageRank sind.

"Manueller Kommentar SPAM" vollständig lesen
tweetbackcheck