Irgendwas mit Daten
KI, Marken, Analytics, Mediaplanung, DAM, PIM etc.
Ich mache etwas mit Daten
KI, Marken, Analytics, Mediaplanung, DAM, PIM etc.
Mit plusdemographics.com steht eine neue Quelle hinsichtlich Zahl und Demographie der Deutschen Google+ Nutzerschaft zur Verfügung. Es sind jetzt – im Januar 2012 – knapp 2 Millionen Accounts, die gemessen wurden.
Die Zahl an sich wird dabei sicher noch mit Fehlern behaftet sein, aber schon relativ nahe an die tatsächliche Zahl der Accounts bzw. Nutzer heranreichen. Deshalb zunächst zur Methode. plusdemographics.com hat etwa 45 Millionen öffentliche Accounts gecrawlt und auf diesem Web die Informationen gewonnen. Hier die Methodenbeschreibung:
We have been tracking public profiles on Google+ since even before its public launch in summer of 2011. With a sense of modesty, we’ve become somewhat of an unofficial authority on this social network.
In January 2012, we crawled and indexed just over 45 million public Google+ profiles (45,015,599 to be exact). This dataset forms the basis of the report you’ve just read.
A statistically relevant number of users had provided data, such as Gender, Location and Relationship Status, in their public profiles. We then used these data to extrapolate to the full Google+ population. One of the more difficult challenges we faced was the fact that the data in these fields were „free form“ and unstructured. We were able to normalize it for most of the fields to a degree of accuracy with which we are comfortable.
Age Range, while not a specific field found in profiles, was determined across the Google+ population by assuming that users had begun college at the age of 18. By working backward, or forward as it were, we calculated the user’s current age based on the start of their freshman year.
Wichtig: Durch Carwling werden Account-Zahlen gemessen, diese werden mit der Zahl der aktiven Nutzer in Relation gesetzt. Dem liegt die Annahme zugrunde, dass beide Strukturen – also Accounts und aktive Nutzer – hinsichtlich der interessierenden Parameter gleich verteilt sind. Wenn dem so ist, können Aussagen hinsichtlich Nutzerzahl und Demographika getroffen werden.
Beachten sollte man den Satz hinsichtlich der statistisch relevanten Zahl von Nutzern. In nicht allen 45 Millionen Accounts sind die in die Auswertung eingehenden Variablen ausgefüllt. Einzig das Geschlecht ist ein Wert der auszufüllen ist (Drop-down) und als Default-Wert öffentlich gezeigt wird. Dabei können sich die Nutzer allerdings auch auf den Wert „Sonstiges“ zurückziehen, was ein Anteil von unter 5 Prozent macht. Wir dürfen also beruhigt davon ausgehen, dass drei Viertel der Nutzerschaft männlich und ein Viertel weiblich ist.
Hinsichtlich der weiteren Variablen wird es schwierig. Unter Verwendung der Crawling-Methode können lediglich die von den Nutzern als öffentlich eingestuften Informationen in die Auswertung eingehen. Viele der Informationen sind per Default auf „öffentlich“ eingestellt, die Nutzer müssen diese allerdings nicht ausfüllen. Wenn weitere Information eingetragen werden, wie beispielsweise „ich suche“, dann können diese einen anderen Status (z.B. „Kreise“) bekommen und sie gehen nicht in die Auswertung ein. Dennoch dürften die Ergebnisse hinsichtlich des Beziehungsstatus recht valide sein: 35 Prozent Single, 30 Prozent verheiratet.
Noch schwieriger wird es, wenn es Freitextfelder gibt, die auszufüllen sind. Bei den Wohnorten werden relativ wenige Fehler auftreten, bei Arbeitgebern schon eher (z.B. Bundeswehr, Army, Luftwaffe).
Wir sollten an dieser Stelle damit zufrieden sein, dass wir einen einigermaßen brauchbaren Wert für die Nutzerzahlen von Google+ bekommen und wissen, welche Geschlechterverteilung vorliegt.