/dev/null

Elite is stupid. Back to the roots.

August 21, 2006

Wie kann man die Suche im Web verbessern?

15:41

Nachdem ich sehe wie hilflos die grossen Anbieter von Suchmaschinen sind und der PageRank von Google auch langsam in die Jahre kommt (sprich viel Spam bei Google auftaucht, um die Rankings hochzuschrauben), habe ich mir ein paar Verbesserungen ueberlegt:

  • Seiten mit wenig Content und viel Werbung sollten ein niedriges Ranking erhalten.
  • Seiten die nur redundante Inhalte anzeigen (z.B. News-Feeds) sollten ein niedriges Ranking erhalten.
  • Seiten die Wert auf Accessibility und Usability legen sollten einen hohen Rank erhalten.
  • Damit verbunden: Seiten mit validem HTML Source (idealerweise XHTML mit CSS) sollten einen hohen Rank erhalten.
  • Seiten mit bestimmten Keywords sollten nicht in den Index kommen (z.B. Viagra, Porn,…).
  • Daneben kann man natuerlich noch auf Googles PageRank setzen, wobei ich nicht weiss, ob man das einfach uebernehmen darf (Patente?).
  • Wenn ein User auf ein Suchergebnis klickt, sollte das gezaehlt werden, weil es dann scheinbar passt. Wenn ein Ergebnis nie angeklickt wird obwohl es schon lange im Index ist, wird es nicht so relevant fuer viele sein (z.B. weil man schon in der Uebersicht sieht, dass es wahrscheinlich Spam ist).
  • Es sollte fuer bekannte User eine einfache Moeglichkeit geben Spam zu melden.

Google, Yahoo, MSN, Ask und Co koennen sich solche strengen Regeln nicht leisten, weil zuviele Site-Betreiber mit entsprechend minderwertigen Angeboten klagen wuerden und ausserdem: Sie verdienen an der Werbung. Ich hingegen kann keine mit Google/Yahoo/Amazon/…-Werbung verseuchten Sites mehr sehen. Man weiss ja schon gar nicht mehr wo Inhalt und wo Werbung ist und muss kunstfertig um die Anzeigen herumlesen.


Gerade habe ich im Forum von Golem.de den Tipp bekommen, mal einen Blick auf http://clusty.com/ zu werfen. Scheint brauchbare Ergebnisse zu liefern. Sollte man im Auge behalten.

Richtig ist auch der Hinweis, dass Google noch nicht mal valides HTML liefert. Eigentlich eine Schande, aber solange es funktioniert: Sei’s drum.


Inzwischen ist es fast 23 Uhr. Verspielt wie ich bin, habe ich gleich einen Spider geschrieben der die Sites mit einem ContentRank bewertet. Dieser richtet sich nach der Menge der Werbung, dem Text und der Qualitaet des HTML-Source. Erste Experimente haben gezeigt: Die Idee funktioniert prima!

Beispiele (teilweise von http://www.google.com/Top/Computers/Internet/Organizations/):

Die Bewertung geht momentan von minus Unendlich (wenn es unendlich viel Werbung gibt…) bis 4 (keine Werbung, viel Inhalt und keine HTML Fehler), kann aber auch nach oben erweitert werden wenn ich z.B. den PageRank von Google noch irgendwie einbaue.

Ich habe uebrigens 2 bis 3 Stunden fuer diese ueberaus nuetzliche Software gebraucht. War ganz einfach. Wenn ich Zeit habe schreibe ich ne nette Web Oberflaeche und dann kann’s losgehn :)

Powered by PHP, Memcached, Suhosin, MySQL and WordPress