Vor einigen Tagen kam im Chat eine Diskussion um die Mitarbeitersituation auf. Teil der Diskussion war auch die Frage, wer denn die neuen Artikel schreibt — die Regulars oder auch neue Autoren? Gestern Abend hab’ mich mir die Frage nochmal vorgenommen und die Datenbank auf dem Toolserver gequält. Folgendes Ergebnis war heute Mittag herausgekommen:
| Anmeldejahr | Neue Artikel in 2010 |
|---|---|
| Vor 2006* | 607 |
| 2006 | 401 |
| 2007 | 222 |
| 2008 | 202 |
| 2009 | 315 |
| 2010 | 116 |
Die erste Spalte gibt das Anmeldejahr der Benutzer aus, die Zweite die Anzahl der neuen Artikel in 2010; d.h. zum Beispiel das 222 neue Artikel von Benutzern geschrieben wurden, die sich irgendwann 2007 angemeldet haben. Die Abfrage berücksichtigte nur bestehende Artikel — also sind diejenigen die schon gelöscht wurden nicht mit erfasst (solche die momentan einen LA haben, aber schon). Nicht erfasst sind auch Artikelneuanlagen von anonymen Autoren.Update 1: Insgesamt wurden 2096 neue Artikel angelegt, das bedeutet, dass 233 von anonymen Autoren sind.
Ich persönlich finde besonders faszinierend, dass bereits 116 von ganz neuen Benutzern angelegt worden sind — ansonsten sehe ich eine recht gleichmäßige Verteilung über die Jahre.
H-stt fragte nach der Verteilung des Edits generell. Nachfolgende Tabelle zeigt dies. Die erste Spalte zeigt wieder das Anmeldejahr, die Zweite die Anzahl der Edits im Artikelnamesraum ab Beginn des Jahres bis 5. Januar 5:32 MEZ (das Datum der obigen Abfrage).
| Anmeldejahr | Bearbeitungen in 2010 |
|---|---|
| Vor 2006* | 27395 |
| 2006 | 16682 |
| 2007 | 13414 |
| 2008 | 14109 |
| 2009 | 11930 |
| 2010 | 1853 |
Tags: Datenbankabfrage, Edits, Löschdiskusion, Neue Autoren, Statistik
Ab wann werden die Anmeldungen berücksichtigt? Nur 12 Autoren aus 2005 ist mir ein bisschen wenig.
Soweit ich mich erinnere, wurde die Anmeldedaten irgendwann 2005 eingeführt. Die Leute, die jetzt also unter 2005 stehen sind nur diejenigen, die nach der Einführung erfasst wurden.
Ich werd’ mal eine Anmerkung im Beitrag hinterlassen.
Wieviele neue Artikel stammen von IPs? Sind (schnell-)gelöschte Artikelanlagen in den Zahlen enthalten? Wie ist denn die Verteilung der Altersklassen in der Grundgesamtheit aller angemeldeter Benutzer?
@H-stt:
Wieviele neue Artikel stammen von IPs? Der Rest natürlich.
Sind (schnell-)gelöschte Artikelanlagen in den Zahlen enthalten? Nein, nur noch bestehende Artikel (steht doch im Beitrag
).
Wie ist denn die Verteilung der Altersklassen in der Grundgesamtheit aller angemeldeter Benutzer? Sofern die Benutzer nicht irgendwie angegeben haben, wie alt sie sind (was die wenigsten tun) kann man das nicht auswerten.
ad 1: Wie hoch ist der Rest?
ad 2: oups.
ad 3: Ich suche die “Altersklassen” der Accounts, nicht der Benutzer. Du müsstest deine Auswertungssoftware, so wie du sie auf die neuen Artikel losgelassen hast, nochmal auf zB 3000 RCs loslassen. Dann könnte man schauen, ob sich diejenige, die neue Artikel anlegen, von der Gesamtheit der Wikipedianer unterscheiden.
In diesem Zusammenhang interessante Thesen:
Machen langjährigen Wikipedianer tendenziell mehr Wartung als Frischlinge (und legen daher weniger neue Artikel an)?
Sind die dienstältesten Wikipedianer Autoren mit einem Projekt – so dass sie gerade besonders viele neue Artikel anlegen?
Ist der Aktivitätseinbruch bei den Neuanlagen durch in den Jahren 2007 und 2008 angemeldeten Wikipedianern auch bei der generellen Aktivität vorhanden oder betrifft er nur die Neuanlagen?
@H-stt:
Ich habe die gewünschten Daten im Beitrag hinterlassen.
Danke.
Erste Eindrücke:
Neue Autoren melden sich an, weil sie neue Artikel schreiben wollen. Sie sind unter den Neuanlagen deutlich überrepräsentiert.
Wer nach über einem Jahr noch dabei ist, rutscht in die Wartung rein. Das Loch der Autoren von 2007/08 bei den Neuanlagen gilt nicht für die Gesamtedits.
Nach drei und noch stärker nach vier Jahren sind überwiegend Poweruser übrig. Die verteilen sich relativ regelmäßig auf das Anlegen neuer Artikel und dem Verbessern bestehender.
Weitere Forschungsidee: Wieviele Bytes umfassen die Änderungen der verschiedenen Account-Altersklassen? Handelt es sich bei den Verbesserungen an bestehenden Artikel um Hausmeisterjobs wie Kategorien und Likfixes oder um inhaltliche (größere) Änderungen? Diese Auswertung wird vermutlich zwei Peaks haben, also nicht einfach mit einem Durchschnitt oder Median zu beantworten sein. Deshalb interessiert hier die Verteilung und insbesondere die Höhe der Peaks.
@H-stt:
Ich hab auf der Wikipedia ein paar Diagramme dazu abgelegt. Ich hoffe, die helfen dir.