KI/Copilot und Datenschutz

Wie sieht das eigentlich mit dem Schutz meiner Daten aus, wenn eine KI diese lernt oder für Anfragen verwendet. Sieht dann der Betreiber oder andere Mitarbeiter vielleicht geheime interne Daten? Die Frage kommt ganz schnell von Geschäftsführern, Entwicklung, Betriebsarzt oder Personal. Antwort: Kann sein, wenn Sie KI falsch nutzen und ihre Daten falsch geschützt haben.

Öffentliche Quellen

Datenschutz hat auch immer etwas mit Zugriffsrechten zu tun. Eine öffentliche Ki wie ChatGPT hat öffentliche Quellen zum "lernen" ausgelesen. Sie können also sicher sein, dass ihre öffentliche Webseite z.B. auch einbezogen wurde. Die www.msxfaq.de wurde erfasst, wie ich in den Webserver-Log anhand des UserAgent ChatGPT einfach nachvollziehen konnte. Hier gibt es quasi keinen Datenschutz und auf dieser Basis generieren ChatGPT, Midjourney und andere KIs entsprechende Texte. Sie können ChatGPT und Co nach Allgemeinwissen fragen und bekommen Antworten mit Quellenangabe. Das geht schon deutlich weiter als nur eine Liste von Suchergebnissen.

Bereitgestellte Quellen

ChatGPT u.a. haben aber erst einmal keinen Zugriff auf ihre lokale Dateien oder Cloud-Daten. Natürlich können Sie ein Dokument zu ChatGPT und anderen Diensten hochladen und um eine Zusammenfassung bitten. Dann nutzt die KI ihr individuelles Dokument als Quelle und das "Allgemeinwissen" zur Generierung der Ausgabe. Was die KI danach mit dem Dokument macht, sollten Sie genau prüfen. Die Problematik kennen Sie aber auch von Deepl.com und anderen Webdiensten, denen Sie ihre Rohdaten anvertrauen und dann eine PDF, ein Video oder eine Übersetzung zurück erhalten.

Vorhandene Quellen

Bei Copilot liegen ihre Daten nun aber schon in ihrem Tenant und können von Microsoft in einen Index aufgenommen werden. Für die KI werden die Dokumente in einen speziellen "Semantic Index" erfasst, der pro Tenant individuell ist. Wenn Sie nun Copilot per Promt befragen, dann nutzt Microsoft diesen "Semantic Index", um aus ihren Daten unter Berücksichtigung der Berechtigungen und anderer Filter entsprechende Ergebnisse zu erhalten, die dann erst an das eigentlich "Large Language Model" (Vergleichbar zum Allgemeinwissen von ChatGPT) gegeben werden welches dann die Ergebnisse "schön" formuliert. Die Anfragen und Ergebnisse werden aber vom LLM nicht "gelernt" sondern nur verarbeitet.

Datenschutz

Insofern müssen Sie hier genau hinschauen, welche Daten wo heute schon liegen, welche Daten Sie an eine KI zu lernen bereitstellen und welche Daten nach einer Suche als Input an ein LLM gesendet werden. Wer Lücken in der Vergabe von Berechtigungen hat, hat aber schon lange ein Problem, dass Anwender vielleicht zuviel sehen können aber es vielleicht nur noch nicht gefunden haben.
Dennoch wird das Thema "Datenschutz" gerne wie ein großese Schild vorhergetragen, um die Einführung von Copilot zumindest zu verzögern oder sogar zu verhindern. Ob der Datenschutz dabei wirklich der eigentliche Grund ist, stelle ich gerne mal in Frage.

Die Geschichte des Auto

Ich bin sicher kritischer als der Durchschnitt, was die Erfassung von Informationen und Sammlung von Daten betrifft. Aber ich nutze dennoch mein Fahrzeug, um von A nach B zu kommen und die Entwicklung der Mobilität nutze ich gerne als Gleichnis zu Copilot.

Als die ersten Kutschen mit Benzin/Diesel-Motor ausgestattet wurden, mussten die Konstrukteure aber auch Fahrer noch viele wissen und lernen und die ersten Unfälle waren vermutlich nur aufgrund der niedrigen Geschwindigkeiten eher glimpflich. Explodierende Dampfkessel bei Lokomotiven hatten da sicher mehr Potential. Dennoch war der Siegeszug des KFZ nicht aufzuhalten und mehr und mehr Personen nutzen die neue Mobilität aber waren sich auch der Risiken bewusst.
Mit der Zunahme und Schwere der Unfälle haben auch die Konstrukteure ihr "System Auto" angepasst. Nach und nach kamen Zweikreisbremse, Sicherheitszelle, Sicherheitsgurte, ABS, Airbag dazu und heute erkennen Fahrzeuge die Fahrbahnen, Schilder und den Abstand zum Vordermann.

Auch in der IT gab es immer neue Entwicklungen, die begleitet eingeführt wurden und natürlich wird man "offensichtliche Probleme" früher angehen aber andere Probleme erst im Betrieb erkennen.

Aus meiner Sicht sind KIs und Copilot der Prototypenphase gerade entwachsen und Sie sollten ihre Probefahrt nicht verpassen, nur weil Sie die Risiken scheuen. Es wird sicher die ein oder anderen "Unfälle" geben und vielleicht auch schwere Schäden aber in der Summe dürften KIs und Copilot eine gewisse Revolution bedeuten.

Beim Kraftfahrzeugverkehr sind wir ja auch nicht so zimperlich oder warum sind in fast allen anderen Ländern umfangreichere Tempolimits in Kraft?

Weitere Links