Back home

Chinas Open-Source-Modell wird eher gebremst als blockiert.

Was wirklich brüchig wird, sind Verteilung, Aktualisierungen und Abhängigkeitsketten

Wenn diese Art von Diskussion in das Projekt fällt, wird sie schließlich zu einem kälteren Satz zusammenlaufen: Es ist schwierig, das Open-Source-Modell vollständig auszulöschen. Was wirklich zuerst spröde wird, ist das Fließband, das sich um das Modell dreht. Solange eine der Modelldateien, Bilder, Prüfwerte, Inferenzumgebung und Bewertungsskripte defekt ist, wird das Team nicht das Gefühl haben, „ob dieses Modell noch auf der Welt existiert“, sondern „ob dieses Upgrade reproduziert werden kann“.

Was wirklich hängen bleibt, sind meist Einstiege und Aktualisierungen.

Die amtliche Verwahrung lässt sich am einfachsten zunächst beenden. Webseiten, APIs, Download-Seiten, Mirror-Sites, solange der Zugang zentralisiert ist, Zahlungen, rechtliche Angelegenheiten, CDN, regionale Beschränkungen und Kontorichtlinien können alles eingrenzen. Das Gleiche gilt für die Cloud-Inferenz. Sobald das Unternehmen die Modellfunktionen an einen bestimmten Hosting-Punkt auslagert, muss das Modell durch die Blockade nicht aus der Welt gelöscht werden. Solange die Zugänglichkeits-, Quoten-, Zahlungs- und Regionalbeschränkungen verschärft werden, gerät das System ins Wanken.

Aber sobald sich das Gewicht verteilt hat, ändert sich die Situation. Das Open-Source-Modell lebt nicht nur auf einer bestimmten Homepage, sondern auch auf lokalen Festplatten, Build-Caches, Image-Warehouses und Artefaktspeichern, die vom Team erstellt wurden. Was Sie steuern können, ist eher die Geschwindigkeit, mit der die Verteilung fortgesetzt wird, als die Anzahl der bereits vorhandenen Kopien. Um die Situation klarzustellen: Die größte Auswirkung besteht oft nicht darin, „ob Sie eine bestimmte Version noch herunterladen können“, sondern darin, „ob Sie in Zukunft stabil denselben Satz an Tokenisierern, Chat-Vorlagen, Quantisierungspaketen und Abhängigkeitsanweisungen erhalten können.“

Es wird hier auch am meisten unterschätzt. Wenn Sie das Modell zum ersten Mal ausführen, scheint das Risiko vorüber zu sein. Das eigentliche Problem ist oft das zweite Mal. Als ich das zweite Mal einen Rollback durchführen wollte, war das Bild nicht mehr da; Als ich das zweite Mal reproduzieren wollte, hatte sich das Quantifizierungsformat geändert. Als ich zum zweiten Mal ein Upgrade durchführen wollte, stimmten der Inferenzcode und die Gewichtsversion nicht überein. Als ich es zum zweiten Mal überprüfen wollte, waren der Auswertungssatz und das Vorverarbeitungsskript geändert worden. Oberflächlich betrachtet fehlt nur ein Download-Link, tatsächlich fehlt jedoch ein vollständiger Satz wiederholbarer Lieferketten.

Diese Art der „Versiegelung“ gleicht also eher einer Entschleunigung als einer Löschung. Was erheblich geschwächt werden kann, ist die Geschwindigkeit der Kommunikation, des Cloud-Zugriffs, der Versionssynchronisierung und des ökologischen Vertrauens; Was sich nur schwer vollständig löschen lässt, sind die gewichteten Kopien, lokalen Bereitstellungsmöglichkeiten und sekundären Verteilungsmöglichkeiten, die sich verbreitet haben. Sobald das Open-Source-Modell in genügend Maschinen gelangt, ändert sich das Risiko von „Kann es existieren“ zu „Kann es sich stabil weiterentwickeln“.

Hier ist es auch am wahrscheinlichsten, dass heimische Mannschaften ihr Ziel verfehlen. Nach der Integration des Modells in das Produkt kann es leicht passieren, dass man sich nur auf die erste Runde von Effekten konzentriert und vergisst, dass es sich bei dem Modell tatsächlich um eine Abhängigkeit handelt. Sobald eine Abhängigkeit nur einen einzigen Einstiegspunkt hat, wird der einzelne Punkt zu einem Kontrollpunkt; Sobald eine Abhängigkeit nicht über eine Versionssperre verfügt, werden Upgrades zu einem zufälligen Ereignis. Sobald eine Abhängigkeit keine Offline-Kopie hat, wird die sogenannte „eigene Fähigkeit“ aufgedeckt, nachdem ein bestimmter Spiegel fehlschlägt.

Der stabilere Ansatz besteht nicht darin, sich vorzustellen, dass es keine Blockade geben wird, sondern die Blockade im Voraus in mehrere erschwingliche kleine Probleme aufzuteilen: Das Gewicht und die Laufzeit werden separat gespeichert, die Download-Adresse und der Verifizierungswert werden zusammen gespeichert, die Inferenzumgebung wird offline neu erstellt, die Bewertungsergebnisse werden nach Version archiviert und der Rollback-Pfad ist ebenso klar wie der Release-Pfad. Selbst wenn der Upstream plötzlich heruntergefahren wird, verliert das Produkt auf diese Weise nur einen Zugang und die gesamte Funktionalität ist nicht gleichzeitig offline.

Der wahre Burggraben des Open-Source-Modells war nie: „Niemand wagt es, es zu verwalten“, aber „wenn es verwaltet wird, ist es bereits schwierig, es bis zu einem gewissen Punkt zu verwalten.“ Es gibt viele Eingänge, die verschärft werden können, und es ist schwierig, die ausgebreiteten Kopien wiederherzustellen.