Do not trust Hippos

SDForum hat heute in Mountain View in den Räumen von Microsoft eine Konferenz unter dem Titel “The Analytics Revolution” veranstaltet. 7 Stunden alles zum Thema Data Mining und was man mit diesen Daten machen kann. Die Liste der Vortragenden und Podiumsteilnehmer reichte von Microsoft, SAP und Google über Twitter, Zynga, Linkedin bis hin zu Wissenschaftlern beispielsweise aus den IBM Labs in San Jose. Ein Grund etwas darüber zu berichten, den es war teilweise hochspannend. Im 1. Teil möchte ich über einen Vortrag über Webseiten Optimierung berichten.

Die Veranstaltung wurde mit einen Vortrag “Online Controlled Experiments: Listening to the Customers, not to the HiPPO” von Ronny Kohavi eingeleitet. Seines Zeichens General Manager für Microsofts Experimention Platform, die 2006 gestartet ist. Die Länge seines Titels sagt schon aus, dass er sich mit grossen Datenmengen auskennen muss. Der Vortrag war gut gelungen und sehr informativ.

Schwerpunktthema war die Wichtigkeit möglichst viele Daten über die Nutzung von Webseiten und Anwendungen zu sammeln, um dann gezielt durch Experimente die eigene Webseiten zu optimieren. Dabei hat er an konkreten Fallbeispielen aufgezeigt, wie leicht sich das anhört und wie schwer das in der Praxis fällt.

Das Grundprinzip für Experimente ist der A/B-Test. Dabei handelt sich um einen trivialen Ansatz: Eine Gruppe von Nutzern wird zufällig in zwei oder mehrere Untergruppen aufgespalten. Die A-Gruppe ist die Kontrollgruppe, die B-Gruppe die Testgruppe. Man erfasst die Daten und wertet diese nach statistisch relevanten Ergebnissen aus.

Im Vorfeld wird für jeden Test ein OEC – eine Overall Evaluation Criterion festgelegt. Dabei muss man immer darauf achten, dass die OEC durchdacht ist. Bei Amazon beispielsweise werden die Umsätze der verschiedenen Kategorien unterschiedlich gewichtet, da sie unterschiedliche Auswirkungen auf Kundenbindung, Marge, usw. haben. Wenn aber der Umsatz in einer Kategorie steigt, muss auch geprüft werden welche Auswirkungen das auf andere hat.

Ronny Kohavi führte das an drei Beispielen von A/B-Tests näher aus. Er nahm Webseiten wo Experimente durchgeführt wurden. Anfangs bat er aber erstmal alle 150 Teilnehmer  sich von Ihren Plätzen zu erheben. Jeder Teilnehmer, konnte dann durch Heben der rechten oder linken Hand darlegen, wie er den Ausgang des Experimentes einschätzte. Wer nach einer Runde falsch lag, musste sich hinsetzen.

Der 1. Test betraf MSN Real Estate:

Die beiden Seiten unterschieden sich durch einigen Faktoren. In der A-Variante werden Parameter mit Checkboxen ausgewählt, ausserdem wurde der Button “Search Listings” benannt. In der B-Ariante waren es Eingabefelder und der Buttontext lautete “Find Homes”.

In der Software-Ergonomie habe ich gelernt, dass man Buttons aus Sicht des Nutzers und seinen Ziel benennen sollte. Also war ich dafür, dass B mit dem Button “Find Homes” ein besseres Ergebnis erzielte. Als Nutzer möchte man lieber etwas finden, den etwas nur suchen. Als Folge meiner Einschätzung dürfte ich mich setzen und war damit in der ersten Runde schon ausgeschieden. Tatsächlich führte A 8,5% mal häufiger zu einer Suchabfrage, als die Variante B.

Der 2. Test betraf die MSN Home Page Search Box:

Hier lagen die Unterschiede darin, dass in A das Eingabefeld Grösser war, und als Suchsymbol eine Lupe verwendet wurde. Ausserdem gab es dort die Ausgabe der “Popular Searches”. B war schmaler und hatte in Button “Search”. Hier hatte das Experiment ergeben, dass es kein signifikanten Unterschied ergab.

Nach dieser 2. Runde standen von 150 Teilnehmern noch genau 2. Dies wurde vom Vortragenden mit dem Satz “Stop debating, its easier to get the data” kommentiert – Vermutungen über Nutzerverhalten sind auf Dauer einfach nicht richtig einzuschätzen. Ich nenne dies das “Kein Programmierer/Designer/Manager/etc kann so schräg denken, wie Nutzer handeln”-Prinzip.

Hinweis am Rande: Eine spätere Untersuchung ergab, dass sich bei der MSN Home Page Search Box sehr die Änderungen gegenseitig in ihrer Wirkung aufgehoben haben. Bei einen Experiment, wo nur Lupe vs Search-Text-Button verglichen wurde, ergab sich, dass der Search-Button doch besser geeignet ist, als die Lupe. Damit war auch mein Software-Ergonomie-Wissen wieder beruhigt, den das hatte ich so auch gelernt.

Der 3. Fall bezog sich auf Office Online:

Bei diesen Experiment waren der Bereich zum kaufen, sowie die Anordnung von zwei Elementen (Kauf-Bereich, Illustration des Office Produktes) verändert, die für das OEC wichtig waren, die also beim Klick Umsatz genieren sollten. Obwohl der Kaufbutton in B deutlich größer war, war die Variante B 64% weniger erfolgreich.

Dieses Beispiel sollte ein anderen Faktor bei der Analyse hervorheben – wenn ein Ergebnis extrem abweicht, dann gibt es in der Regel ein Fehler im Experiment und ein Faktor, den man übersehen hat. In diesen Fall war in der Variante B auch der Preis des Produktes direkt auf der Startseite angegeben worden, während in Variante A der Preis erst zu einen späteren Zeitpunkt dargestellt wurde.

Nach Ende der 3. Runde sassen dann auch alle auf Ihren Plätzen, keiner hatte alle drei Fälle korrekt eingeschätzt.

Die gewonnen Erkenntnisse konnten wie folgt zusammengefasst werden:

  • Jede Statistik die interessant aussieht, ist es fast immer eine fehlerhafte Statistik
  • Ist etwas verblüffend, suche und finde den Fehler
  • Ist ein Geburtstagsfeld unnötig und trotzdem ein Pflichtfeld, werden besonders viele Leute am Geburtsdatum 11/11/11 oder 01/01/01 geboren sein
  • Ist ein Berufsfeld ein Pull Down Menü und es ist keine Auswahlfrage als Default hinterlegt, hat man besonders viele Astronauten als Kunden.
    Anekdote am Rande: Neel Sundaresan von ebay warf ein, dass dies ein Grund war, dass besonders viele Nutzer von ebay laut Statistik in Afghanistan leben würden.

Für Experimente sollte man sich nicht zu schade sein:

  • Bei Amazon scheitern die Hälfte aller Experimente die eine Verbesserung erreichen sollen.
  • Im Buch “Breakthrough Business Results with MVT” berichtet die Firma QualPro über 150.000 Tests in 22 Jahren. Bei diesen wurde festgestellt, dass in 75% der Entscheidungen die Verbesserungen zum Ziel hatten, diese Entscheidung keinerlei Nutzen hatte.
  • Bei Microsoft hat man folgende Feststellung gemacht: 1/3 der Tests führen zu einer positiven Veränderungen und sind statistisch relevant. 1/3 der Tests haben keinerlei Auswirkung und das letzte Drittel führen zu einer Verschlechterung. Also auch hier, haben 2/3 der Verbesserungen keinen Nutzen.

Als Erkenntnis sollte man das Prinzip von Mike Moran befolgen:  “Do it wrong quickly”. Versuche radikale Ideen und teste sie aus und zwar schnell. Heutzutage gibt es die Möglichkeit die Daten zu sammeln, schnell mit Hilfe von Tools auszuwerten und weitere Tests durchzuführen.

Leider gibt es auch einige Faktoren, die den Einsatz von Experimenten in Unternehmen behindern und wie so häufig, sind die meisten kultureller bzw. organisatorischer Natur:

  1. Hubris
    Auch das “We know what to do and we sure of it”-Argument genannt. Besonders beliebt bei Designern, Entwicklern und Entscheidern.
  2. Insight through measurement and control
    Als Beispiel für diesen Fall, brachte er die Geschichte des Arztes Ignaz Semmelweis und der Entdeckung der Vermeidung des Kindbettfieber im Jahre 1847. Nach diversen Messungen konnte dieser Experimentell ermitteln, dass er – der Arzt – selbst die Ursache sein muss. Er stellte das fest, nachdem er 4 Monate weg war und die Fälle von Kindbettfieber zurückgehen. Durch weitere Experimente konnte er belegen, dass Ärzte dadurch das sie morgens die Autoption an Verstorbenen durchführten, die Sterblichkeit auslößte. Durch Waschen der Hände vor Operationen, konnte das Kindbettfieber vermieden werden.
  3. Semmelweis Reflex
    Der Reflex Messergebnisse nicht zu vertrauen, ist weit verbreitet. Trotz eindeutiger statistischer Daten an zwei Krankenhäusern, wurde Ignaz Semmelweis nicht geglaubt, verspottet und auch gekündigt.
  4. Fundamental Understanding
    Als Ergänzung zur Geschichte wurde die Erkenntnisse von Ignaz Semmelweis erst 1879 akzeptiert, als Pasteur die Ursache – die Bakterien – finden konnte. Und damit keiner glaubt, dass dies nur früher so passieren konnte. Im Jahr 2005 starben nach Untersuchungen 90.000 Menschen in den USA, aus haargenau den selben Gründen wie schon damals 1847 – mangelnde Hygiene vor der Operation. Ignaz Semmelweis ist auf einer 50 Euro Münze übrigens inzwischen gewürdigt worden.

Zum Abschluss als Fazit einfach eine Erklärung zum Begriff “Hippo” im Titel des Vortrages:

Ein Hippo ist in diesen Fall kein Nilpferd, sondern die “Highed Paid Persons Opinion” und nach dem Vortrag wird auch klarer, wieso der Titel gewählt wurde. Analyse führt zu Verbesserung, nicht die Meinung von Einzelpersonen, auch nicht wenn sie die Entscheider sind. solche Hippos – siehe die Geschichte vom Kindbettfieber – haben mehr Menschen getötet, als jedes andere Nicht-Menschliche Säugetier zusammen.

Weiterführende Informationen zum Thema sind auf  exp-platform.com zu finden. Tools die entsprechende Experimente effizient unterstützen gibt es viele. Beispielsweise seien hier SiteSpect oder Googles Website Optimizer. (FS)

Tags: , , ,   



   ShortNews Shortnews melden  Artikel drucken
  EBook download

2 Kommentare zu “Die (Analytics) Revolution bei Microsoft – Teil 1”

Tweets die Die (Analytics) Revolution bei Microsoft – Teil 1 | The Silicon Valley Experiment erwähnt -- Topsy.com

[...] Dieser Eintrag wurde auf Twitter von Silicon Valley Exp erwähnt. Silicon Valley Exp sagte: Experimente zur Optimierung von Webseiten und Abläufen, ein Vortrag von Ronny Kohavi (Microsoft) http://is.gd/bmt4Q [...]

Das Ende der Datenschutz-Geschichte | Terras Websalon: Blog

[...] Veranstaltung wurde mit einen Vortrag “Online Controlled Experiments: Listening to the Customers, not to the HiPPO“ von Ronny Kohavi eingeleitet, welche sehr interessant war. Danach folgten weitere Vorträge [...]

Schreibe einen Kommentar

Die (Analytics) Revolution bei Microsoft – Teil 1
Impressum | Datenschutz | Regeln | Haftung | Copyright © The Silicon Valley Experiment. All rights reserved.