Rick Skrenta - CEO of Blekko

Rick Skrenta - CEO of Blekko

Das Silicon Valley Blog hatte die Gelegenheit in der Firmenzentrale in Redwood City mit dem Gründer von Blekko zu reden. Rich Skrenta ist in Pittsburg geboren und arbeitet heute im Silicon Valley.

Seine erste Presserwähnung erreichte der heute 43-jährige CEO schon mit 15 Jahren als Entwickler des weltweit ersten Apple Virus für den damaligen Apple II mit Namen Elk Cloner. Er arbeitte am Amiga mit und war für SUN tätig. Seine letzte Firmenbeteiligung Topix konnte er 2005 erfolgreich an ein Konsortium verkaufen.

svexp: Wie ist die Idee entstanden, eine neue Suchmaschine zu gründen?

Rich Skrenta: Das ist jetzt mein drittes Startup. 1989 gründete ich eine „Search-Site“ die damels noch Newhoo hieß. Dieses war eine Crowdsearch Version von yahoo. Anstatt einzelne Editoren zu bezahlen, damit sie Einträge für yahoo’s Webverzeichnis generierten, forderten wir die Leute auf, bei uns einzutreten um als Gruppe ein richtig großes zu bilden. Am Ende hatten wir 80.000 eingetragene Nutzer und ein sehr großes Webverzeichnis. Wir verkauften diese Firma 1989 an Netscape und ich arbeitete einige Jahre weiter an diesem Projekt. 2002 kam das nächste Startup, Topix, eine Online News Seite. Mit Topix konnte man sich die Nachrichten aus seiner Umgebung gezielt anzeigen lassen. Es gab eine News Seite für jede Stadt in der USA und verschiedene Unterkategorien. Wir hatten einen Webcrawler für Blogs und Newstories. 2005 verkauften wir diese Firma an die drei größten Nachrichten Firmen in der USA und blieb da noch zwei weitere Jahre. Im Jahr 2007 dachte ich mir: ok, ich habe spezifische Websuche mit dem open directory gemacht und mit dem anderen einen bestimmten Webcontent durchsucht. Aber das ist ja nur ein kleiner Themenbereich. Warum gründe ich nicht eine Suchmaschine? Es sieht so aus, dass es nicht wirkliche viele Suchmaschinen da draußen gibt, da nicht viele StartUps versuchen welche zu betreiben da sie Angst davor haben. Es gibt schrecklich viele Firmen , die versuchen, verschiedene neue Soziale Netze für unterschiedliche Bereiche zu entwickeln. Aber wie viele Suchmaschinen StartUps gibt es? Bis heute gibt es nur zwei: Google und Bing, und Bing ist von yahoo. Blekko ist zur Zeit der neueste und einzige Startup. Aber das Netz wird immer größer. Es gibt mehr als hundert Milliarden Seiten im Internet. Da sollte es bessere Informationen geben, die die Leute sehen wollen, als die, welche ihn in den momentanen Suchen auf den Top Such Seiten angezeigt werden. Und es macht Spaß, eine neue Technologie zu entwickeln. Darum haben wir 2007 die Firma gegründet, fingen mit einigen Angle Rounds an und begannen nach zwei von diesen mit einem Etat von etwa fünf Millionen Dollar. Im letzen Jahr  bekamen wir unsere erste institutionelle Unterstützung von vierzehn Millionen Dollar. Der total Etat der uns zur Verfügung steht ist ungefähr vierundzwanzig Millionen Dollar. Suche ist nicht billig.

Wir starteten mit zwei Servern und nun haben wir rund 800 Stück und crawlen Terabytes von Daten. Suche ist teuer, man braucht viel Hardware. Wenn man das Web crawlen will, muss man dazu das gesamte Internet ins Daten Center kopieren und dann auswerten.

svexp: Was ist der Unterschied von Blekko gegenüber Google und Bing?

Rich Skrenta: Wir haben ein Feature das „Slashtag“ genannt werden. Damit ist es möglich, bei der eigentlichen Suche diese mit deren Hilfe auf ein bestimmtes Unterthema einzuschränken. Ich suche zum Beispiel nach „global warming“ und sehe die regulären Suchresultate. Aber ich würde nun gerne wissen, was die Konservativen dazu sagen. Ich kann nun der Suche den slashtag /conservative hinzufügen und sehe Statements von dieser Gruppe. Was ist, wenn ich die andere Seite dazu sehen will? Ich veränder den slashtag in /liberal. Vielleicht will interessiert mich mehr die wissenschaftliche Seite davon: /scientsits. Ich kann auch das Web nach Daten durchsuchen: /date Das zeigt mir alles über „global warming“ nach Aktualität sortiert. Wir haben hunderte von diesen Slashtags kreiert, wie z.B. /humor, /recepies, /people, /news, /blogs, /forums, /callendar und viele mehr.

Aber wir haben auch die Möglichkeit geschaffen, dass sich jeder User seine eigenen Slashtags generieren kann. Wir haben hunderte kreiert aber wir wollen, dass die User kommen und noch mehr machen. Sie können die, für die Suche relevanten Seiten hinzufügen und sofort benutzen: in kürzester Zeit habe ich meine eigene vertikale Suchmaschine gebaut. Und ich kann weitere Seiten hinzufügen, wenn ich will. Ich kann das auf meiner eigenen Webseite einbinden

svexp: Sehen Sie kein Risiko darin, den Web-Crawler und das Ranking transparent zu machen?

Rich Skrenta: Wir denken eigentlich, dass es eine Chance ist. Ich habe bei der Computersicherheit gearbeitet. Unbd es gibt Unterschiede zwischen Computersicherheit und Computersicherheit. Wenn man einen kryptographischen Algorithmus hat und die Details davon geheim hält, ist es höchstwahrscheinlich kein guter. Diese willkürliche Kreation, die benutzt wird um das Web zu ranken, wird geheim gehalten, weil sie Angst haben, bei Veröffentlichung von Spammern überrollt zu werden. Wenn das wahr ist, ist es keine gute Kreation. Wir wollen, dass jeder auf unsere Rank-Daten schauen kann, wie wir es machen – nichts wird hinter geschlossener Tür entschieden und geheim gehalten. Denn ein Platz, wo jeder schauen und sich selber mit einbringen kann, wird das Web zu einem besseren Platz mit objektiveren Rankings führen. Bei vielen Suchen sieht man nur Spam. Man sieht die Seite und weiss: „ das ist ein „Bad Guy“, er macht Comment-Spam!“ Viel von dem aktuellen Spam fällt weg, wenn man den Algorithmus öffentlich macht. Und wir denken, diese Daten sind zu wertvoll und geheim gehalten zu werden. Der Nutzen für die Seitenbetreiber besteht darin zu sehen, wie seine objektive Platzierung im Web ist. Der für die User ist der, dass sie endlich verstehen und vertrauen können, warum sie diese Resultate bei der Suche bekommen haben. Sie können „hinter“ die Seite schauen und dort finden sie alle einbezogenen Faktoren dazu. Wir wollen das nicht verstecken sondern alles öffentlich machen.

svexp: Blekko benutzt seinen eigenen Crawler, den Scoutjet. Welche Informationen kommen von diesem und welche von anderen Suchmaschinen-Crawlern?

Rich Skrenta: Alles kommt von unserem eigenen. Wir haben unseren eigenen Crawler, unseren eigenen Index und eigene Resultate. Die Anderen haben geheime APIs. Das ist aber nicht unsere Philosophie. Wir wollen, dass man in eine „Search Box“ kommt, das Web wird auf bestimmte Informationen durchsucht. Das Problem zur Zeit ist, dass wir noch nicht so viel gecrawlt haben sodass es andere Services mit mehr Informationen gibt wie /amazon, /flikkr, /twitter. Diese kommen von externen Services. Wir haben viele von diesen. Wenn wir Ihre Suche nicht beantworten können, wird auf diese externen APIs zugegriffen. Mit zunehmender Größe von Blekko, wird das aber geringer werden. Zumeist auf yahoo, da sie eine größere Datenbank und eine API haben.

svexp: Welches Business-Modell hat Blekko?

Rich Skrenta: Wir wollen die Seite durch Anzeigen monetisieren, aber das primäre Herausforderung für ein Seachengine Startup ist nicht die Monetesierung der Seite sondern eine gute Suche zu generieren. 1999 war monetisierte Suche ein großes Problem, heutzutage ist es ein gelöstes Problem – vielmehr besteht das Problem darin, wie man die User zu der Suchmaschine bekommt. Wir haben zur Zeit noch nicht genug Traffic. Es ist sehr interesssant zu beobachten, wie sich der Slashtag gegenüber  von den promoteten Suchen unterscheidet. Pageviews haben einen höheren ROI als typische Bannerwerbung.

svexp: Viele SEO-Entwickler benutzen den yahoo-Siteexplorer als API Schnitstelle für SEO-Überwachungsprozesse und Backlink-Verfolgung. Durch die Allianz von yahoo und Bing ist dieses Tool möglichweise bald nicht mehr vorhanden. Plant Blekko für diese Art von Service eine eigene API für SEO-Entwickler?

Rich Skrenta: Wir würden gerne eine eigene API entwickeln. Das wird möglichweise einige Zeit nach dem offiziellen Relaunch erfolgen. Momentan sind wir noch nicht für die breite Masse der Menschen öffentlich, bevor wir an die Maschinen denken, wollen wir erst die Bedürfnisse der Menschen komplett erfüllen. Die Art wie Blakko das Ranking verteilt kann sich jeder anschauen, alles ist öffentlich zugänglich.

svexp: Was ist der Unterschied zwischen Blekko und einer Metasuchmaschine?

Rich Skrenta: Wir haben unseren eigenen Crawler laufen. Die API Slashtags tun was eine Metasuchmaschine machen würde. Aber die meisten Suchen sind auf /blekko eingeschränkt. Da gibt es keine anderen Suchmaschinen hinter diesem Slashtag.

svexp: Ist es nicht grundsätzlich das gleiche Prinzip wie die Hashtags bei Twitter?

Rich Skrenta: Schon, aber mit Twitter kann man oft keine weiteren Informationen finden. Man muss eine Suchmaschine befragen. Bei den Hashtags kann man nur eine Sache zur Zeit suchen lassen. Aber es muss möglich sein, verschiedene Themen miteinander zu verknüpfen um die richtigen Seiten in jeder Kategorie zu identifizieren. Das ist mit den Slashtags möglich.

svexp: Die User-generierten Slashtags sind eine Art von User generiertem Content. Wie funktioniert das über einen längeren Zeitraum, wenn die URLs dahinter nicht gepflegt werden?

Rich Skrenta: Die Slashtags gehören zum User und das langfristige Ziel ist es, an populären tags gemeinschaftlich zu arbeiten, ähnlich wie Wikipedia. Wir haben einige dieser Features noch nicht, da wir und noch immer in der Betaversion befinden, aber es ist ein langfristiges Ziel. Es fängt mit der Möglichkeit für jeden einzelnen an, seine eigenen Slashtags zu bauen. Desweiteren ist es möglich, nach bestimmten tags zu suchen und sich die Listen der User anzeigen zu lassen, wenn er sie nicht verborgen hat. Diese Listen sind einsehbar und ich kann dann entscheiden, welchen Slashtag ich schlussendlich für meine Suche verwenden will.

svexp: Wie wird die Qualität der Suche garantiert, wenn es zu viele Slashtags gibt?

Rich Skrenta: Ich glaube, es ist der Grundgedanke von uns, der hinter allem steht: wir müssen die Suche gesunden lassen. Websearch startete mit yahoo in den 90er wo ein Team von Entwicklern ein Verzeichnis erstellten und es war die Nummer eins unter den Suchmaschinen. Als google kam, kam auch der Pagerank auf. Es nahm die Hyperlinks die es im Web sah und behandelte sie wie einen Garant für Qualität. Und das machte auch Sinn, da in 1999/2000 die meisten dieser Links von echten Menschen angeboten wurden. Sie waren von guter Qualität. Nun, 10 Jahre später haben wir 100 Milliarden URLS da draußen, und diese sind nicht zu 99% von Menschen gemacht.  Die meisten Seiten die wir sehen, sind nicht von Menschen gemacht, ebenso wie die Backlinks, welche Google wertet. Sie sind von Spammern gemacht. Jemand bezahlt einen Dollar auf Amazon Mechanical Truk um eine Seite über Krankheiten zu erstellen und dieser benutzt nur cut and paste von anderen Seiten. Er ist kein Doktor, Krankenschwerter oder anderweitig Professionell. Alles was man vom Webcontent weiß, ist zu einer Massenflut von Spam geworden. Suchmaschinen werten nur den Tag aus. Es ist hier ein höherer Garant für Qualität, wenn echte Menschen die richtigen Seiten weiterempfehlen. Eine Maschine kann den Unterschied zwischen einer künstlich erstellten Seite und einer menschlich erstellten nicht erkennen. Man muss die Menschen zurück bringen da diese den Unterschied zwischen einer qualitativ hochwertigen Seite erkennen und bewerten.

svexp: Wie funktionieren die built-in-Slashtags, insbesondere /rank? Wie wird das ausgewertet?

Rich Skrenta: Wir sind sehr offen über die mit dem Webcrawler gesammelten Daten. Sie können sich vorstellen, dass es sehr teuer ist, das Web zu crawlen. Es werden tausende von Servern benötigt, in unserem Fall hunderte, Gigabytes von Bandweite. Die „Bad-Guys“ der Suchmaschinen behalten alle Informationen geheim. Sie veröffentlichen noch nicht mal Basisinformationen von URL-Backlinks. Wir wollen den Usern aber alles zeigen. Tatsächlich kann man auf Blekko alle Links sehen, sogar nach Aktualität sortieren lassen und diese auch in seinen eigenen RSS Reader laden lassen. Aber das ist nur der Anfang, wie Suchmaschinen das Web durchsuchen. Wir wollen alle Daten unseres Crawlers öffentlich halten. Wir zeigen die Linkdistribution von Staaten, von Ländern, woher diese links kommen, was der anchor Text ist, was wir auf der Seite gesehen haben, wo sie gehostet ist. Eine Vielzahl von Informationen. Sogar Sachen wie ID’s die wie gefunden haben, Anzeigen und wenn ich darauf clicke, kann ich sogar andere Seiten im Internet finden, die die gleichen Anzeigen und ID verwenden. Wir Indexen nicht nur die Wörter und die Seite, wir Indexen auch die IDs

Hinter der Crawler steht das „machine learning model“ und er lernt ständig dazu. Er befindet sich in ständigem training.

svexp: Wie wird sichergestellt, dass die User die Slashtags nicht  missbrauchen?

Rich Skrenta: Der content hier ist „trusted“. Die Seiten von Spammern sind von vorne herein ausgeschlossen. Wir haben ein kleines Editoriales Team hier, welches die öffentlichen Slashtags generiert. Ansonsten verfolgen wir das langfristige Ziel wie auf Wikipedia, die User einzubeziehen um an den Slashtags mitarbeiten zu können. Wir können in der History der einzelnen User sehen, ob er dauerhaft etwas zur Qualität beigetragen hat oder nicht. Dier privaten Slashtags gehören zu den Usern. Sie werden nicht von vorneherein gebraucht, außer man sucht explizit über einen bestimmten User mit seinen Listen. Es ist wie das Twitter Modell. Ich bekomme keinen Spam auf Twitter, da ich keinen Spammern folge.

svexp: Was ist der Unterschied zwischen Blekko /date und der Google News Suche?

Rich Skrenta: Sie beziehen, genau wie Blekko, die Informationen von bestimmen Nachrichten Servern. Google macht seine Nachrichten nicht selber, auch Blekko tut das nicht. Es ist dann eher eine Frage der Geschwindigkeit und der Frequenz, mit der diese Seiten gecrawlt werden.

svexp: Warum fallen die Suchergebnisse bei /person so unterschiedlich aus

Rich Skrenta: Die Suche kann immer nur so gut sein, wie die Tags sind. Desweitern ist natürlich auch die Online Geschichte der Menschen zu berücksichtigen. Trotzdem ist die Suche hier oftmals besser als die Suche mit den Anderen, da bestimmte Spamseiten von vorneherein ausgeschlossen werden.

svexp: Blekko scheint mehr oder weniger nur einzelne Blogposts zu bestimmten Themen zu finden. Google und yahoo hingegen blogs, die sich hauptsächlich mit dem Thema beschäftigen. Wie ist das zu erklären?

Rich Skrenta: Suche ist immer etwas subjektives. Es geht hierbei nicht darum zu sagen, x ist besser als y. Manchmal sind bei bestimmten Suchen eben noch nicht die richtigen Tags eingetragen und daran muss kontinuierlich gearbeitet werden. Momentan arbeiten wir daran, die Suche auf Blekko zu verfeinern und immer weiter den Bedürfnissen anzupassen.

svexp: Momentan ist die Suche auf den englischsprachigen Raum zentriert. Hat Blekko Pläne die Suche international auszuweiten?

Rich Skrenta: Ja, über einen langfristigen, zukünftigen Zeitraum würden wir uns auch gerne auch nach Europa ausbreiten. Momentan arbeiten wir aber an den Relaunch im englischsprachigen Raum.

svexp: Wir danken für das Gespräch

(AE)

WordPress › Fehler

Es gab einen kritischen Fehler auf deiner Website.

Erfahre mehr über die Problembehandlung in WordPress.