Windows 10 Diagnosedaten

Wir haben es schon immer geahnt und die Fraktion der "Aluhüte" hat es schon immer vermutet, dass insbesondere Windows 10 sehr viele Daten zu Microsoft meldet. Das stimmt sogar und hier stelle ich ihnen vor, was Sie einstellen können und wie sie erkennen, welche Dinge Microsoft meldet.

Diagnoseeinstellungen

Für jeden Hersteller ist die Telemetrie eine wichtige Möglichkeit, etwas über den Einsatz des Produkts beim Kunden zu erfahren und basierend darauf Verbesserungen, Bugfixing und Weiterentwicklung auszurichten. So einer Datensammlung ist solange nichts vorzuwerfen, wie der Hersteller mit offenen Karten spielt, und sich mindestens an die Gesetze hält, was je nach Land nicht ganz einfach ist. Wenn sehr viele Systeme entsprechende Telemetrie-Daten an eine zentrale Stelle senden, lassen sich allein über die Anzahl bestimmter Kriterien schon Rückschlüssel auf Probleme ziehen. Dabei ist es gar nicht mal erforderlich das einzelne Gerät oder den Benutzer zu identifizieren.

Allerdings ist das noch keine Sicherheit, dass dies nicht noch passieren könnte. Und ja, es ist möglich, da zumindest die Diagnosedaten, die ich gesehen habe, sehr wohl Rückschlüsse auf ein Gerät, den Standort und den Anwender zulassen. Dazu später dann mehr-

Zuerst schauen wir uns die Einstellmöglichkeiten durch den Anwender in der Systemsteuerung an. Hier gibt es erst mal die Unterscheidung nach "Standard" und "Voll".

Den Dialog gibt es schon länger aber mittlerweile gibt es weiter unten eine Einstellung, dass Sie selbst auch die Daten einsehen können:

Das Extrahieren der Diagnosedaten in einem Format, welches Sie selbst anzeigen können, kostet natürlich Ressourcen und erst nachdem diese Option aktiv ist, können Sie auch die Anzeige starten:

Diagnostic Data Viewer

Um die Reports selbst einzusehen, hat Microsoft eigenes die App "Diagnostic Data Viewer" entwickelt, die kostenfrei im AppStore erhältlich und schnell installiert ist:

Wenn Sie beim Start das folgende Bild sehen, dann haben Sie unter Windows die Analyse selbst nicht frei gegeben.

Das bedeutet aber nicht, dass Windows nicht doch diese Daten sammelt sondern nur, dass Sie diese nicht einsehen können.

Problemberichte

Wenn Sie schon immer mal wissen wollten, was Windows 10 an "Problemberichten" versendet hat, dann ist diese Anzeige passend. Sie sehen hier z.B., dass am 12.12.2018 mein Outlook nicht mehr reagiert hat. Der Bericht enthält auch das Modul und vermutlich die Stelle.

Ich habe mal gehört, dass beim Exchange Server ca. 30% des Code nur dafür da sind, die Performance zu messen, Fehler zu erkennen, abzufangen und zu berichten. Bei heutiger Software-Entwicklung reicht es also nicht mehr, eine funktionsfähige Version zu erstellen sondern auch Fehler möglichst so zu erfassen, dass die Behebung einfach möglich ist. Das ist besonders wichtig, wenn es um sporadische Fehler geht, die sich nicht einfach nachstellen lassen.

Diagnosedaten

Der zweite Bereich der Diagnose-Daten ist allerdings viel umfangreicher. Ich habe hier gesehen, dass mein Client anscheinend 100 und mehr Berichte pro Minute anlegt, von denen ich aktuell noch nicht weiß, ob diese nur lokal gesammelt oder direkt zu Microsoft übertragen werden. Die Berichte sind sehr aufschlussreich.

Hier wird anscheinend protokolliert, dass ich im Edge Browser von einer leeren Seite "about:blank" zu Microsoft Privacy-Seite gesurft bin.

Wenn Windows 10 all diese Aktionen protokolliert, entsteht eine lückenlose Historie aller angesprochenen URLs. Auch finden sich Protokolle erfolgreicher TLS-Verbindungen im Log:

Sie sehen aber, dass in dem Log neben dem Hostname und dem Protocol auch Informationen über den Computer, hier ein Lenovo T480s Modell 20CD00E2GE" und eine diverse IDs mitgeliefert werden. Letztlich sind es aber auch nur Bausteine, die jeder für sich nicht besonders sensibel sind. Erst durch die Kombination der verschiedenen Meldungen kann ein gewiefter Analyst mit entsprechenden Werkzeugen seine Schlussfolgerungen ziehen.

Aber hier ist Windows selbst bei weitem nicht die einzige Quelle. Auch Browser prüfen unter dem Vorwand eines Schutzes eine URL gegen zentrale Datenbanken. Das klingt gut, erschwert bösartigen Webseiten das Handwerk aber verrät natürlich auch, wer wohin surft. Wer dann glaubt per Tor-Browser sicherer zu sein sein, sollte einfach zur Kenntnis nehmen, dass viele Tor-Exit-Nodes von Institutionen betrieben werden, die natürlich zumindest den letzten Hop analysieren. Auch die Datenschutzvereinbarungen zu meinem Connected Drive ändern sich häufig und ein Widerspruch bedeutet eine Deaktivierung eines gekauften Dienstes.

Sie sollten auch nicht glauben, dass ihre Fitness-Tracker am Armband. ihr Smartphone in der Hose oder die Helfer namens Alexa, Cortana, Google und Co nicht zur "Verbesserung des Service" entsprechende Nutzungsmuster nach Hause melden. Auhc Smart-Fernseher melden ihre Nutzung an die Sender, laden ggfls., "Rote Taste Drücken"-Mehrwerte nach, über die der Sender aber genau ein Feedback bekommt. Wenn Sie zur gleichen Zeit noch mit dem PC der Smartphone über natürlich die gleiche öffentliche IP-Adresse ihres DSL-Routers auf einer anderen Seite angemeldet unterwegs sind und dort natürlich Werbepartner inserieren, dann ist der Kreis geschlossen. Insofern sehe ich die verteilte Datensammlung mit deren Aggregation durch Werbenetzwerk im Internet viel kritischer.

Ein komisches Gefühl bleibt

Ich vertrete eigentlich den Ansatz, dass man nur so viel Daten sammeln sollte, wie man für eine Funktion benötigt. Auf der anderen Seite ertappe ich mich selbst auch immer wieder dabei, dass bestimmte Auswertungen eben doch mehr Aussagekraft erhalten, wenn zusätzliche Informationen vorhanden wären. Ich möchte dazu ein Beispiel geben:

Beim Betrieb von Exchange passiert es ja immer mal wieder, dass ein Server am Ende der Laufzeit abgeschaltet werden soll. Um hier sicher zu sein, alle Dienste auch umgestellt zu haben, bietet sich eine Auswertung der MessageTrackingLogs, SMTP-Logs, IISLogs an. Ein Server ohne Funktion sollte hier nur noch wenige Zugriffe bedienen, die vom Monitoring selbst kommen. Nun wird niemand einen Server noch Monate laufen lassen sondern eher in die Vergangenheit gehen. Es ist relativ einfach zu ermitteln, von welchen anderen Systemen z.B. eine Verbindung per SMTP aufgebaut wurde. Streicht man aus der Liste dann die anderen Exchange Server, dann bleiben nur die Fremdsysteme übrig, die umgestellt sein sollten. Auch bei "alten Postfächern" reicht es eigentlich zu erfassen, wann eine Mailadresse das letzte Mal eine Mail versendet oder Empfangen hat.

Wenn Sie dann aber einen Treffer haben, dann ist die erste Frage: "Wer war das denn, wer war der Absender, wie lautete der Betreff". In der ersten Auswertung werden diese Daten aus Datenschutzgründen nicht erfasst aber dann müssen doch noch mal die Logs genauer inspizieren. Aber so kommt auch der normale Administrator sehr schnell in die Situation mehr Daten zu erheben als anfänglich gedacht.

Dass selbst öffentliche Informationen umfangreiche Rückschlüsse erlauben, hat David Kriesel z.B. anhand einer Analyse der Artikel auf Spiegel Online schon demonstriert.

David Kriesel: SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
https://www.youtube.com/watch?v=-YpwsdRKt8Q&
www.dkriesel.com/spiegelmining

Insofern ist es nur kein ganz kleiner Schritt von einer unverdächtigen Datensammlung zu einem echten Problem. Das Problem sehe ich auch bei der Datensammlung von Microsoft. Ich kann mir sehr gut vorstellen, dass erst mal niemand bei Microsoft sich die Meldungen im Einzelnen anschaut. Die Verarbeitung wird vollautomatisch erfolgen, um Anhand von Mustern, betroffenen Code-Teilen und Programmen die Stellen zu ermitteln, die vordringlich gefixt werden sollten. Sicher lässt sich auch ein Fehlverhalten einer Applikation oder bestimmte Angriffe nachvollziehen um schnell dagegen ansteuern zu können. Für solche Auswertungen ist eine gewisse Datensammlung erforderlich und solang man nicht weiß, was man sucht, wird man eher etwas mehr erfassen.

Wie aber das Beispiel mit SpiegelMining schon zeigt, ist es aber gar die Detailtiefe der Daten allein ein Thema sondern die Sammlung als solches erlaubt schon umfangreiche Rückschlüsse oder wie es David Kiesel bei Minute 45:34 (https://youtu.be/-YpwsdRKt8Q?t=2734 ) treffend zum Ausdruck brachte: "Rohdaten sind geil". Speicher ist einfach zu günstig, um Daten vorschnell weg zu werfen.

Damit besteht aber auch das Risiko, dass die Daten auch unter anderen Aspekten untersucht und ausgewertet werden. Wenn mein Client alle TLS-Verbindungen und aufgerufene Webseiten im Rahmen der Telemetrie sendet und der Empfänger die Daten nicht entsprechend anonymisiert, dann ist das ein Datenschatz, für den sich sehr schnell natürlich auch Ermittlungsbehörden interessieren. Solange das mit entsprechend der Gewaltenteilung auch richterlich angeordnet wurde, ist das wohl nicht zu beanstanden. Kritisch wird es immer dann, wenn diese Zugriffe ohne Legitimation oder ohne Kontrolle erfolgen. Wer traut sich heute noch "Halt" zu rufen, wenn das Killerargument "Terrorismus" vorgebracht wird. Schon ein kleiner Einwand macht einen ja schon selbst verdächtig als Unterstützer eingestuft zu werden. In anderen Ländern gibt es z.B. einen "National Security Letter" ( https://en.wikipedia.org/wiki/National_security_letter). Ein Beispiel zeigt sogar, dass es gar nicht auf den die Mail oder den Betrefft selbst ankommt.


Auszug aus https://upload.wikimedia.org/wikipedia/commons/a/a4/EFF-IA_National_security_letter.pdf

Wir werden die Kiste der Pandora nicht mehr schließen können. Das Mindeste sollte aber sein, dass die Personen, die bei einer Recherche im Scope waren, vielleicht nicht sofort aber zumindest nachträglich darüber informiert werden müssen. Nur so kann eine wirksame Kontrolle der Analysten erfolgen, wenn sie nämlich Konsequenzen bei unrechtmäßigem Einsatz fürchten müssten. Allerdings habe ich sogar diese Hoffnung schon aufgegeben und erwarte von den aktuellen Politikern ich hier keine Regelungen mehr. Das ist dann eine Aufgabe für die nächste Generation.

Weitere Links