Back home

Nachdem das Open-Source-Modell veröffentlicht wurde, ist das erste, was fragil wird, die Versionssperre.

Die Modellgewichte sind weiterhin erhältlich, die feste Version ist jedoch möglicherweise nicht reproduzierbar.

Nachdem ein Open-Source-Modell veröffentlicht wurde, wird die feste Version normalerweise als erstes gelockert, während die Gewichtsdatei oft die stabilste ist.

Der Warehouse-Name ist immer noch vorhanden, und der Modellname ist immer noch vorhanden, aber die tatsächliche Eingabe, die zum Ausführen von Auswertungen, Regressionen und zum Verbinden des Datenverkehrs verwendet wird, ist oft nicht dieselbe. Was wir heute gezogen haben, ist main, und es wird nächste Woche immer noch derselbe Pfad sein, aber der Tokenizer, die Vorlage, das Quantisierungspaket, der Standard-Dtype und sogar die empfohlenen Parameter in der README-Datei wurden geändert. Was Sie online sehen, ist nicht „das Modell verschwindet“, sondern „derselbe Modellname wird zu einem anderen Liefergegenstand“.

Nach mehrmaliger Übernahme des Modellzugriffs werden Sie feststellen, dass der Standardwert der am leichtesten zu ignorierende Wert ist. Die Gewichtsdatei wird normalerweise von jemandem beobachtet, aber das Standard-Tag, das Standardbild, die Standardvorlage und das Standard-Cache-Verzeichnis bleiben oft unbeaufsichtigt. Wenn ein Synchronisierungsfenster hängen bleibt oder die Spiegelstation nur die Gewichte, nicht aber die Konfiguration synchronisiert, stellt das Team plötzlich fest, dass es sich nicht um eine reproduzierbare Version handelt, sondern um eine Reihe abweichender Namen.

Der Standardeingang ist leichter zu driften als das Gewicht.

Die Gewichtsdatei ist statisch, der Eintrag nicht.

model-name:latest Diese Schreibweise scheint einfach zu sein, aber das Problem besteht darin, dass die Frage, wann aktualisiert werden soll, außen vor bleibt. Wenn der Upstream den Tokenizer ändert, eine Chat-Vorlage hinzufügt oder das Quantifizierungspaket neu eingibt, ändert sich das Verhalten der Zugriffspartei entsprechend. Die Bewertungsergebnisse schwanken vielleicht nur geringfügig, aber die Online-Ausgabe ändert leise ihren Ton. Der quälendste Teil bei der Fehlerbehebung ist hier: Im Protokoll sieht alles normal aus, aber tatsächlich wird ein anderer Eingang aufgerufen.

Was wirklich unangenehm ist, ist nicht die Veränderung an sich, sondern die Tatsache, dass die Veränderung keine Grenzen hinterlässt. Solange der Name unverändert bleibt, können sich Regression, Graustufen und Unfallüberprüfung nur auf die Ergebnisse konzentrieren und die Gründe erraten. Der Modellname hängt weiterhin dort, aber das Team hat keine Möglichkeit zu bestätigen, ob das Modell, das sie heute erhalten haben, dasselbe Produkt ist wie das Modell, das letzte Woche als Basisversion verwendet wurde.

Bilder, Vorlagen und Quantisierungspakete sollten zusammen eingefroren werden

Nur das Gewicht zu fixieren reicht nicht aus.

Nachdem ein Open-Source-Modell tatsächlich in den Workflow aufgenommen wurde, enthält es normalerweise mehr als nur einen .bin oder .safetensors. Es wird außerdem Tokenizer, Chat-Vorlage, Inferenz-Framework-Parameter, Quantifizierungsdateien, Download-Bilder, Startskripte und Cache-Pfade mitbringen. Wenn einer von ihnen abweicht, kann dies schließlich zeigen, dass „das Modell schlechter geworden ist“. Tatsächlich ändert sich oft nicht das Modell, sondern der Lieferumfang.

model:
  repo: example/model
  revision: 8f3c1a2
  tokenizer_revision: 8f3c1a2
  cache_dir: /opt/model-cache

Diese Art der Konfiguration scheint ausführlich zu sein, führt jedoch zu drei Dingen: Das Image ist für die Verfügbarkeit verantwortlich, die Versionsnummer und der Hash sind für die Reproduzierbarkeit verantwortlich und das Startskript ist für konsistente Inferenzparameter verantwortlich. Ohne eine dieser Schichten kann das sogenannte „bereits öffentliche“ Modell nur als Halbzeug betrachtet werden. Für den Zugriffspartner kommt es nicht darauf an, ob er heruntergeladen werden kann, sondern ob der heruntergeladene Inhalt drei Wochen später immer noch die gleichen Ergebnisse liefern kann.

Was wirklich erhalten bleiben muss, ist die Fähigkeit zur Reproduktion

Nachdem das Open-Source-Modell veröffentlicht wurde, muss das Team nicht einen mysteriösen Zugang schützen, sondern die Reproduzierbarkeit.

Sobald die Reproduzierbarkeit unterbrochen wird, verschiebt sich die Bewertungsbasislinie, die A/B-Ergebnisse werden verzerrt und die Unfallwiedergabe verliert den Bezug. Bis alle das Problem mit dem Sprichwort „Letzte Woche war alles normal“ diskutieren, ist die Versionsverwaltung im Grunde gescheitert. Es macht an dieser Stelle wenig Sinn, über Modellfähigkeiten zu sprechen; Nur durch eine Verschärfung der festen Version, der Bildsynchronisierung, der Hash-Überprüfung und des Rollback-Pfads können wir qualifiziert sein, weiterhin über den Effekt zu sprechen.

Diese Art von Modell ähnelt eher einem Software-Artefakt als einem Webdienst. Wenn die Webseite defekt ist, können Sie immer noch 500 sehen und die Modellversion schwankt, und in vielen Fällen ändert sie sich in der Ausgabe nur langsam. Oberflächlich betrachtet hat es immer noch den gleichen Namen, aber tatsächlich wurde die Hälfte des Systems geändert.