Über ein neues Zeitalter des Digital Astroturfing

Für eine gründliche Analyse von Botnetzen benötigen Sozialforscher und Journalisten Fertigkeiten und Denkweisen, die ihnen vollkommen unbekannt sind.

Kaum steht eine neue Wahl an, gibt es wieder neue Berichte über Social Bots, die automatisierte Propaganda für einen Kandidaten betrieben haben sollen, sowie eine neue Fallstudie, die betont, wie schwierig es ist, das neue Zeitalter des Digital Astroturfings zu erfassen.

Der Artikel der britischen Zeitung The Telegraph über eine Reihe von Bots, die Twitter mit Pro-Corbyn- und Anti-May-Botschaften überfluteten, stellt einen nennenswerten Versuch der diesbezüglichen Berichterstattung während der Parlamentswahlen in Großbritannien dar. Auch die grundlegenden Fakten des Beitrags stimmten ungefähr: Es gab in der Tat viele User, die in den letzten Wochen des Wahlkampfes mit großer Häufigkeit Corbyn unterstützende Nachrichten twitterten. Allerdings fehlt es dem Bericht an stichhaltigen Beweisen hinsichtlich des Ausmaßes und der Absichten der Tweets.

Natürlich ist es wichtig, über mögliche automatisierte Propaganda zugunsten eines bestimmten Kandidaten zu berichten, mit der Beliebtheit suggeriert wird und Fehlinformationen verbreitet werden. Dennoch verfügen Sozialforscher und vor allem auch Journalisten noch nicht über die notwenigen Fertigkeiten und Denkweisen, die sie für eine sorgfältige Analyse von Botnetzen benötigen.

Wie können wir dann überhaupt mit Problematiken wie der Verifikation von Botkampagnen umgehen? Welche Fragen sollten wir auf der Suche nach Pro-Corbyn-Bots stellen? Hier sind ein paar Anregungen:

Was verstehen wir unter „Bots“?

Die meiste Arbeit im Bereich der Bot-Enttarnung konzentriert sich auf das Erstellen von Wertungssystemen basierend auf Merkmalen wie Followern, Freunden und dem Alter eines Accounts. Auch wenn diese Merkmale einen gewissen Informationswert besitzen, ist dieser Ansatz doch zu engstirnig in der Annahme, dass alle Bots gleich sind. Meine Arbeit hat mir gezeigt, dass jede Gruppe von Bots individuelle Charakteristika aufweist, die sie als fake entlarven.

Gleichzeitig gibt es allerdings auch automatisierte Accountaktivitäten, die nicht komplett ohne menschliche Hilfe geführt werden. Abgesehen von den ausschließlich durch Software geführten Accounts gibt es Berichte von “Cyborg”-Accounts, die in Zusammenarbeit mit Menschen betrieben werden, sowie legitime Accounts, die für die Nutzung in automatisierten Kampagnen vom Besitzer verliehen werden. Diese Accounts sind größtenteils unauffällig und weisen nur sporadisch oder kaum wahrnehmbar unnatürliches Verhalten auf.

Ob es sich nun um einen Bot handelt oder nicht, eine Eigenschaft besitzen automatisierte, für Kampagnen genutzte Accounts zweifelsfrei, da sie erst dadurch wertvoll und kostspielig zu umgehen sind: Sie veröffentlichen unglaublich viele Beiträge. Eine große Menge an Unterhaltungen zugunsten einer bestimmten Agenda ist das Ziel einer jeden automatisierten Social-Media-Kampagne. Doch die zwei einzigen Wege, auf denen dies erreicht werden kann, sind (1) mit wenigen Accounts viel zu posten oder (2) mit vielen Accounts nur wenig zu posten, wobei letzteres die teurere Variante ist. Folglich ist es ein guter Ansatzpunkt, sich bei der Suche nach verdächtigen Accounts nach denjenigen umzuschauen, die eine hohe Aktivität aufweisen.

Das Oxford Internet Institute hat dazu eine Definition für einen high-frequency tweeter, sprich einen „Hochfrequenz-Twitternutzer“ erstellt: Ein Account, der durchschnittlich mehr als 50 mal am Tag twittert. Doch selbst diese Beschreibung ist nicht perfekt, da auf diese Weise manchmal beispielsweise auch twittereifrige Journalisten ins Augenmerk fallen. Deshalb bevorzugen andere Forscher strengere Abgrenzungen, obwohl die Oxford-Definition allgemein richtig, gut umsetzbar und glaubwürdig ist.

Wie viele hochaktive Twitternutzer interagierten mit Corbyns und Mays Accounts?

Für die Suche von Netzwerken automatisierter Accounts benötigt man Daten zur Aktivität sowie zu Nutzern, Followern und Freunden. Im Falle von Twitter bedeutet dies, dass man mehrere Twitter APIs abrufen muss. API steht für Application Programming Interface, zu Deutsch Anwendungsprogrammierschnittstelle. Es ist ein System, mit dem Daten über programmgesteuerte Netzwerkanfragen abgerufen werden können.

Mit den folgenden zwei APIs ist es möglich, Tweets zu einem bestimmten Thema abzufragen: der Search API und der Streaming API. Bei beiden gibt man einen Suchbegriff ein und erhält als Resultat Tweets, die diesen Begriff enthalten. Beispielsweise können wir, indem wir nach den Nutzernamen @jeremycorbyn und @theresa_may suchen, eine Stichprobe von Tweets erstellen, die den jeweiligen Account genannt haben – und das einschließlich Retweets.
Jede API hat ihre Vor- und Nachteile. Die Search API liefert zum Beispiel eine unvollständige Stichprobe an Tweets, die möglicherweise das Ausmaß von Accounts, die viel Spammen, geringer darstellt, als der Wahrheit entspricht. Nichtsdestotrotz ist es auch die einzige API, mit der man bereits gepostete Tweets abrufen kann. Aus diesem Grund nutze ich sie trotz alledem.

Ich habe zwei Zufallsstichproben mit 5.000 Accounts erstellt, die zwischen dem 25. Mai und 5. Juni entweder den Twitteraccount von Corbyn oder von May erwähnten.* Im Anschluss holte ich mir mithilfe der Timeline API von Twitter für jeden dieser Accounts dessen Verlauf und berechnete damit die tägliche Durchschnittsfrequenz an Tweets. (Theoretisch könnte man eine ungefähre Frequenz auch bestimmen, indem man die gesamte Anzahl von Tweets durch die Anzahl der Tage seit Erstellung des Accounts teilt. Dadurch riskiert man jedoch, aufgrund von langer Inaktivität oder gelöschten Tweets falsche negative Werte zu erhalten.)

Knapp 7 Prozent derjenigen, die Corbyn in ihren Beiträgen erwähnten, entsprachen der Oxford-Definition eines Hochfrequenz-Twitternutzers. Aufgrund ihrer hohen Produktivität machten diese Accounts am Ende allerdings mehr als 19 Prozent der Corbyn-Erwähnungen in der Stichprobe aus. Das heißt, eine relativ kleine Gruppe von hochaktiven Twitternutzern ist für beinahe jede fünfte Erwähnung und jeden fünften Retweet von Corbyn verantwortlich.

UK hashtag frequency

Und wie sieht es mit May aus? Bei den Accounts, die die Premierministerin erwähnten, gab es – was einige möglicherweise überraschen wird – einen weitaus größeren Anteil, der auf die Oxford-Definition erhöhter Aktivität zutraf (nämlich mehr als 10 Prozent). Doch obwohl diese Zahl höher ausfiel, stammten lediglich 22 Prozent von Mays Nennungen und Retweets von den besagten Hochfrequenz-Twitternutzern, was nur unmerklich höher ist, als die Ziffer der automatisierten Accounts, die Corbyn erwähnten.

Diese Zahlen sind besonders aussagekräftig in Anbetracht der möglichen Voreingenommenheit der Search API gegenüber Spam-Accounts, sowie der Tatsache, dass in einer vorangegangenen Oxford-Studie unter Verwendung der Streaming API eine geringere Menge an Hochaktivität festgestellt wurde.

Was wurde von den Accounts getwittert?

Eine automatisierte Accountaktivität allein hat nicht viel zu bedeuten. Laut einer aktuellen Studie der University of Southern California und der Indiana University werden schätzungsweise zwischen 9 und 15 Prozent von aktiven Twitteraccounts automatisch geführt und posten alles Mögliche, von Medienberichten bis hin zu postmodernen Gedichten. Aufgrund dieser Tatsache ist es wichtig, zu bestimmen, ob die gefundenen und möglicherweise computergestützten Tweets für die Wahlen relevant waren und, ob sie einen bestimmten Kandidaten beworben haben.
Wenn man nun erneut die Timeline betrachtet, wird deutlich, dass es sich bei durchschnittlich jeweils 79 Prozent von Corbyns und 76 Prozent von Mays automatisierten Nennungen nicht um Originalinhalte, sondern um Retweets handelte. Der Rest der automatisch generierten Tweets, in denen die Politiker erwähnt wurden, waren größtenteils normal erscheinende Antworten.

Die 25 häufigsten Retweets von automatisierten Corbyn-Erwähnungen in den Suchdaten waren dem Labour-Chef alle positiv zugeneigt, darunter auch 18 Retweets von Corbyn selbst. Im Gegensatz dazu waren die häufigsten Retweets von May-Nennungen alle negativ auf die Premierministerin zu sprechen und enthielten ebenfalls einige Retweets von Corbyn, der regelmäßig Mays Nutzernamen in seine Tweets einbaute. Selbst wenn man alle Retweets Corbyns außer Acht ließ, gab es nur einen unter den häufigsten Tweets, der May befürwortete.

Der häufigste Retweet von hochaktiven Corbyn-Twitternutzern:

So some Conservative came to visit my mum while I was FaceTiming her. You’re gonna wanna watch this. @jeremycorbyn pic.twitter.com/5IMB9BRqQJ

— tom (@tomosgjames) June 2, 2017

Irgendein Konservativer kam bei meiner Mutter vorbei als ich mich gerade über FaceTime mit ihr unterhielt. Das musst du dir ansehen. @jeremycorbyn

Der häufigste Retweet von hochaktiven May-Twitternutzern:

.@theresa_may Why are you missing from this statement? You can’t stand up for Britain because you won’t stand up to Trump. Weak leadership. https://t.co/e26AjMugMY

— Ed Miliband (@Ed_Miliband) June 1, 2017

.@theresa_may Warum fehlen Sie bei dieser Erklärung? Sie können sich nicht für Großbritannien stark machen weil Sie Trump nicht die Stirn bieten wollen. Schwache Führung.

Dieses Pro-Corbyn-Muster spiegelt sich auch in den Top-Hashtags wieder, die von auf beiden Seiten hochaktiven Nutzern verwendeten werden. Jede Erwähnung von Corbyn unter den Top 25 Hashtags war entweder zugunsten der Labour-Partei, neutral eingestellt oder hatte mit den Wahlen gar nichts zu tun. Im Gegensatz dazu gehörten bei Nennungen von May #VoteLabour (Wähle Labour), #ForTheMany (Für die Allgemeinheit) und #ToriesOut (Raus mit den Tories) zu den bevorzugten Hashtags.

Das heißt natürlich nicht, dass es keine Bots gab, die auch für May Propaganda betrieben. Die gesprächigsten Reaktionen zu Corbyn-Tweets stammten beispielweise von May-Verfechtern. Und dennoch gibt es eine eindeutige Tendenz gen links unter den hochaktiven Twitternutzern.

Gibt es Beweise für ein Netzwerk?

Aufgrund der Tatsache, dass viele automatisierte Accounts die gleiche politische Neigung aufzuweisen scheinen, sollte man hinterfragen, ob sich die beiden Stichproben überschneiden.

Tatsächlich wird May ebenfalls mindestens ein Mal von der Hälfte der automatisierten Corbyn-Accounts erwähnt und auch Corbyn kommt in rund 62 Prozent der automatisierten May-Nennungen vor. Auch wenn dies nicht unbedingt überraschend ist, da Corbyn May ohnehin sehr oft selbst erwähnt. So gibt es weitere Faktoren, die darauf hinweisen, dass die Accounts miteinander in Zusammenhang stehen. Mithilfe der Abfrage einer weiteren API, der Friend API, erhält man eine Liste mit Account-IDs, auf der alle Freunde des jeweiligen Accounts zu finden sind. Die Beziehungen eines Accounts können anhand dieser IDs in einer Tabelle dargestellt werden.

Dabei zeigte sich, dass mehr als 55 Prozent unter den automatisierten Accounts einen anderen automatisierten Account zu seinen Followern zählte und dass knapp 24 Prozent der Freunde eines bestimmten Accounts (d. h. diejenigen, denen der Account folgt) ebenfalls zu den Freunden von mindestens zwei anderen Accounts gehörten. (Anmerkung: Bei einer höheren Anzahl an Stichproben würden diese Zahlen höchstwahrscheinlich ebenfalls steigen.)
Es lässt sich nicht eindeutig feststellen, ob das von mir entdeckte Netzwerk dasselbe ist, wie jenes aus dem Bericht des Telegraph. Lediglich zwei Prozent der Nutzernamen von hochaktiven Twitterern stimmten mit der im Telegraph-Bericht beschriebenen Methode überein: ein Name gefolgt von 8 Ziffern. Es ist allerdings durchaus möglich, dass das Fehlen solcher Accounts auf die Search API selbst zurückzuführen ist, da sie manche Accounts voreingenommen behandelt.

Fazit

In den letzten Zügen der Wahlen gab es in der Tat automatisierte Accounts, die Propaganda für Corbyn und gegen May betrieben und das, in einem beunruhigenden Ausmaß. Zusätzlich gehören mindestens ein paar dieser Accounts allem Anschein nach zu demselben Netzwerk.

Die von mir vorgestellten Daten enthalten jedoch keinen eindeutigen Zusammenhang zwischen diesen Accounts und der offiziellen Labour-Kampagne oder sonstigen Gruppen. Selbst die Annahme, dass diese Accounts speziell für die Unterstützung von Corbyn mobilisiert wurden, ist fraglich. Bots agieren bekannterweise vollkommen willkürlich mit Inhalten, in der Hoffnung, so möglichst normal zu wirken. Und da ein Großteil der Twittersphäre politisch motiviert ist, ist es zu erwarten, dass automatisierte Accounts sich zum Teil für politische Themen engagieren. In jedem Fall läuft der Einfluss, den solche Accounts auf die Unterhaltungen rund um die Wahlen ausüben, am Ende auf das gleiche hinaus.

Es ist wichtig über Digital Astroturfing zu berichten. Bots können zwar nicht wählen, dennoch kann eine augenscheinliche Unterstützung eines bestimmten Kandidaten Wähler entscheidend beeinflussen. Journalisten legen immer mehr Wert darauf, was auf den sozialen Netzwerken wie Twitter gesagt wird und das wird wahrscheinlich auch weiterhin so bleiben, wenn man bedenkt, dass Redaktionen fortlaufend schrumpfen und die Zeit von Reportern immer kostbarer wird.

Über Methoden, wie man Automatisierungen auf sozialen Netzwerken enttarnen kann, haben wir uns bereits Gedanken gemacht. Doch wie können wir Journalisten auf diese Arbeit vorbereiten? Partnerschaften zwischen Nachrichtenorganisation und Universitäten, im Zuge derer Studenten der Computerwissenschaft während der Wahlkämpfe in Redaktionen aushelfen, könnten einen Weg darstellen. Da automatisierte Bots aber natürlich auch außerhalb der Wahlen agieren, sind möglicherweise Partnerschaften zwischen Forschern, Entwicklern und Datenjournalisten, bei denen benutzerfreundliche Tools entwickelt und Fortbildungsveranstaltungen organisiert werden, die beste Lösung.
Egal wie diese am Ende aussieht, ausschlaggebend ist es, eine Lösung zu finden, denn wir können es uns nicht leisten, uns von Bots übertrumpfen zu lassen.

*Diese Analyse basiert auf knapp 460.000 Tweets, die mithilfe von an Twitters Search API gesendeten Twarc-Befehlen abgerufen wurden. Alle Tweets, die Corbyn erwähnten, wurden zwischen dem 25. Mai und 4. Juni und die zu May zwischen dem 31. Mai und dem 5. Juni gepostet. Da auch einige Male die Timeline API von Twitter genutzt wurde, um die Tweet-Frequenz eines Accounts zu bestimmen, waren auch kleinere, Zufallsstichproben von Accounts nötig.

Facebook und das Google News Lab unterstützten First Draft and Full Fact in ihrer Zusammenarbeit mit großen Redaktionen, um die sich während der britischen Parlamentswahlen ausbreitenden Gerüchte und Fehlinformationen im Internet zu thematisieren.
Dies ist der vierte Artikel aus einer Reihe von Blogbeiträgen zu dem Projekt “Wahlen in Großbritannien” von Full Fact und First Draft:
1. Wahlen in Großbritannien: Das haben wir von unserer Arbeit mit Full Fact gelernt
2. Wie wir die Fakten der britischen Wahlen in Echtzeit überprüften
3. The types of misinformation we saw during the UK election