Peter Norvig, Google

Im 2. Teil des Beitrages über Konferenz „The Analytics Revolution“ bei Microsoft, soll auf die anderen Vorträge und Diskussionen näher eingegangen werden. Insbesondere auf die Podiumsdiskussionen „Competing on Analytics at the Highest Level” und „New Frontiers for Analytics“ und natürlich auf mein persönliches Highlight, den Vortrag von Peter Norvig, Leiter der Forschungsabteilung von Google.

An der Podiumsdiskussion „Competing on Analytics at the Highest Level” haben unter der Moderation von David Steiner (PWC), Ken Rudin (Zynga), Kevin Weil (Twitter), DJ Patil (LinkedIn) und Neel Sundaresan (eBay) teilgenommen und diskutierten, welche Ziele und Aufgaben sie mit der Auswertung der Daten für ihre Dienste verfolgen.

Ken Rudin erläuterte für den Farmville-Erfinder Zynga, dass man umfangreiche Daten sammeln um die Umsätze zu erhöhen und die Angebote zu verbessern. Dafür werden die Aktionen der Nutzer verfolgt und gespeichert. Die angefallenen Datenmengen liegen im Terabyte-Bereich. Während anfangs die Daten auf Grund von Anfragen aus Management oder der Spieleentwicklungsabteilung erstellt wurde, nahm die Analytics Abteilung im Laufe der Zeit eine pro aktivere Rolle ein. Dabei wurden allein im letzten Quartal 500 Experimente durchgeführt und die Zusammenarbeit mit den Spieleentwicklern wurde dadurch intensiviert.

Mafia Wars by zynga

Ein Beispiel für solche Auswertungen waren Erkenntnisse für das Spiel Mafia Wars. Laut Ken Rudin mit lächelnden Unterton wie folgt beschrieben: „Mafia Wars great for kids, there can learn all about crimes“. Im Rahmen von Analysen hatte man ermitteln, dass Nutzer die sich mit anderen Nutzern und deren Mafiaclans bekriegten doppelt soviel Zeit im Spiel verbrachten, als jene die eine kriminelle Karriere als Bankräuber oder ähnliches wählten. Im Endeffekt war die Ursache, dass Nutzer miteinander im Wettbewerb stehen wollen und natürlich der Nachbar-Mafia-Klan nicht besser sein darf, als man selbst. Also spendet man Zeit und/oder Geld, um bessere Maschinengewehre und ähnliches zu erwerben. Durch Experimente hat man in die Nutzungsoberfläche verbessert, dass die Spieler eher zum Fighten verleitet werden. Das führte zu einer erhöhten Conversation Rate und damit schlussendlich zu höheren Umsätzen.

Kevin Weil von der Analysisabteilung bei Twitter erläuterte, dass aus seiner Sicht Twitter keine Social Media Plattform, sondern ein Informationsnetzwerk darstellt. Twitter erfasst daher ebenfalls eine grosse Menge an Daten aus und führt viele Experimente zur Verbesserung der Nutzungsoberfläche dar. Am selben Tag hat Twitter übrigens bekanntgegeben, dass es die Firma Atebits übernommen hat. Diese hat die bekannte iphone Applikation Tweetie entwickelt, die in Zukunft kostenlos als „Twitter for iphone“ angeboten wird. Ebenso sind Applikationen für Blackberry, iPad und andere Plattformen geplant. Dies wird sicher zu weiteren Datensammlungen führen, eine berechtigte Frage wäre, wie weit diese gehen könnte.

Die Antwort brachte ein späteres Panel „New Frontiers for Analytics“ unter anderen mit Peter Farago von der Firma Flurry. Das Unternehmen macht immer wieder auf sich aufmerksam, so hat es z.B. als einer der ersten entdeckt, dass ein neues Apple Gerät – heute bekannt als iPad – getestet wird.

Dafür stellt es Schnittstellen für Anwendungsentwicklung für iPhone und andere mobile Endgeräte bei, um den Entwicklern die Möglichkeit zu geben zu ermitteln, wie die Nutzer ihre Anwendungen nutzen, diese zu verbessern und Umsatz zu steigern. dabei werden die Daten nahe zu in Echtzeit ausgewertet, so sind die Daten innerhalb von 2 Stunden verarbeitet. Google Analytics zum Vergleich verarbeitet „nur“ innerhalb von 4 Stunden.

Peter Farago erläuterte, dass beim Start einer iPhone Applikation eine Sitzung an Flurry gemeldet wird, die neben Betriebssystem unter anderen auf Städteebene die Lokalisierung des Endgerätes umfasst. Insgesamt ca. ein Kilobyte an Daten. Bei der weiteren Nutzung können dann de facto alle Clicks des Nutzers in der Anwendung nachvollzogen werden.

Projektsteigerung nach Veröffentlichung iPad, (c) Flurry Analytics

Im Durchschnitt hat jeder iPhone Benutzer 3 Anwendungen die Flurry nutzen installiert, wie der Vize Präsident von Flurry noch anmerkte. Selbst wenn keine Netzverbindung besteht, werden diese Daten erfasst und bei der nächsten Verbindung übermittelt und nachträglich verarbeitet. Dies ist eine sehr umfangreiche Datenspeicherung, deren Umfang leider nicht vollständig klar sind und auch weitergehende Recherche hier keine weitergehende Transparenz brachte. Sicher ist nur, dass die Anzahl der Anwendungen massiv steigt. Zur Erinnerung: Flurry hat mit PinchMedia fusioniert, die wegen der umfangreichen Datenspeicherung schon mal in der Kritik stand.

Eine weiteres Panel „Analyzing Big Data“ gab dann ein Eindruck, um welche Datenmengen es geht. Hier diskutierten der CTO Amr Awadallah von Cloudera, Josh Klahr (Yahoo), James Philipps (Northscale) und Joydeep Sen Sarma (Facebook).

Ein Beispiel für die Speicherdimensionen gab es über Facebook. Aktuell speichert Facebook 400 TB an Daten. Sei es Bilder und Profildaten der Nutzer oder statistische Daten. Zum Vergleich, die US Library of Congress hat gerade mal 20 TB Daten digital gespeichert und diese betreibt intensiv die Speicherung des digital anfallenden Wissens.

Persönlich finde ich bedenklich, dass bei den Panels das Thema Datenschutz keine Rolle spielte. Das läßt leider einiges für die Zukunft befürchten.

Ein erhellendes Erlebnis war jedoch dann der 15-Minuten Vortrag unter dem Titel „The unreasonable effectiveness of Data“ von Peter Norvig von Google.

Er beschrieb wie die bei Google indizierten Texte und Daten über Suchen in die diversen Anwendungen fliessen und damit neue Möglichkeiten bietet.

Einige Beispiele im Auszug:

Puristische Webseite von Peter Norvig

Google greift bei der Bildsuche auf den Kontext zurück, in dem die Bilder genannt wurden. Wenn ein Bild beispielsweise keinen aussagekräftigen Dateinamen hat, aber als Link oder im Umfeld des Wortes „Mona Lisa“ steht, so handelt es sich mit einer gewissen Wahrscheinlichkeit um ein Bild der Mona Lisa. Die so gefundenen Bilder werden mit Hilfe der Scale Invariant Feature Transform untersucht, um so Ähnlichkeiten unter den Bildern zu ermitteln. So entsteht ein Netz, mit den Google Suchergebnisse darstellen kann, die möglichst genau die gewünschten Bilder zeigt.

Spellchecking ist für Google auch ein Einsatzfeld, welches bessere Ergebnisse unter Einbeziehung der Googledaten erzielt. Peter beschrieb das am Beispiel seines früheren Kollegen Mehran Sahami. Spellchecker wandeln bei Eingabe dieses Namens, den Text gern in „Tehran Salami“ um. Entsprechende Spellchecker arbeiten entweder auf Basis von Dictionaries oder wie z.B. htdig mit dem Fuzzy Search nach entsprechenden Regeln. Als Folge können sie nicht erkennen, dass Salami kein favorisiertes Exportprodukt aus Teheran bzw. dem Iran ist, und daher diese Korrektur wohl wenig Sinn hat.

Google hat aber Zugriff auf seine indizierten Seiten und kann mit einer Corpused-Based Search z.B. Wahrscheinlichkeiten ermitteln, dass es sich bei einen Wort ggf. um Eigennamen handelt oder in wie weit Wortkombinationen Sinn machen. So taucht der Name „Mehran Sahami“ bei Google 58.000 mal auf, die Wortkombination „Tehran Salami“ jedoch nur 56 mal. Dabei ist der Implementierungsaufwand überschaubar. Die regelbasierten Routinen bei htdig umfassen ca. 30 Seiten Code, die Integration der obigen Routine nur eine Seite Code.

Wobei nicht verschwiegen wurde, dass diese Methode auch Probleme mit sich bringt. Sollte Peter und jene die ihm zuhören noch mehrere tausendmal dieses Beispiel bringen, dann dürften über Blogbeiträge, Twitterkommentare, usw. die Anzahl der falschen Wortkombinationen irgendwann bedenklich steigen. Insofern gibt es auch bei diesen Techniken eine gewisse „Spamgefahr“.

Bei Übersetzungen mit dem Google Translation Service ist diese Gefahr noch größer. Hier nutzt Google eine analoge Technik, um bei Übersetzungen automatisch Wahrscheinlichkeiten zu ermitteln, welche Wortkombinationen sinnvoll sind. Worte werden also einzeln übersetzt und dann deren Kombinationen geprüft. Als Beispiel wurde ein chinesischer Eigenname gebracht, der in der englischen Übersetzung der einzelnen Worte „his letter“ bedeuten würde. Die Analyse der Wortkombination dieser und nachfolgender Worte würde jedoch dann zuverlässig ermitteln, dass es sich hier um ein Eigennamen handeln muss.

USA Today hat sich dem Thema mal in einen Beitrag näher angenommen, bei dem auch Peter Norvig zu Wort kommt.

Ein Vorteil dieser Technik ist ausserdem, dass man nicht zwingend Wissen über die entsprechende Sprache mitbringen muss. Wenn ein CEO zu seinen Mitarbeiter bei einer Übersetzungssoftware nach althergebrachter Technik sagt „Tolle Übersetzungssoftware und nächsten Monat brauch ich das für Japanisch“, dürfte ein entsprechender Entwickler einen Herzkasper kriegen. Mit der bei Google genutzten Software, ist dies kein Grund zur Panik. Das dürfte ein Grund sein, warum Google Translation soviele Sprachen unterstützt inklusive Suaheli, Walisisch oder Lettisch.

Das was Computer heute mit solchen Daten machen können, ist nach Meinung des Forschungsleiters bei Google schon viel weiter als das was die Computer in Star Trek können. Diese konnten bei Anfragen in der Regel ja nicht viel mehr liefern, dass Wetter auf einen Planeten und das man gefahrlos runterbeamen könne. Allerdings ist auch Google Translation nicht perfekt.

Zuviele fehlplatzierte Texte im Netz, können das Übersetzungsergebnis merkbar verfälschen. Heutzutage geschieht das eher unabsichtlich und Google arbeitet weiter daran, die Wahrscheinlichkeiten besser zu ermittelt Aber vielleicht wird eines Tages bei der Eingabe von chinesischen Eigennamen ein Werbetext entstehen, die Webseiten-Spammer platzieren konnten ?

Fazit der Veranstaltung war für mich:

  • Datenschutz spielt in den Gedankenwelten vieler Social Media und Analytics-Verantwortlichen keine Rolle
  • Die erfassten können neue Anwendungen ermöglichen wie das Beispiel Google zeigt
  • Die Datenmengen nehmen extrem zu und die Analysewerkzeuge lassen heute zu, diese Daten zügig auszuwerten. Egal ob mit Sequel, SAP BusinessObjects, BIRT oder Karmasphere.
  • Experimente können ein grossen Nutzen im Optimierungsprozess von Business Zielen mit der Web- und Anwendungsentwicklung bringen, wenn man es richtig macht. (FS)

Tags: , , ,   



   ShortNews Shortnews melden  Artikel drucken
  

Schreibe einen Kommentar

Die (Analytics) Revolution bei Microsoft – Teil 2
Impressum | Datenschutz | Regeln | Haftung | Copyright © The Silicon Valley Experiment. All rights reserved.