Back home

Açık kaynaklı model halka açıldıktan sonra kırılgan hale gelen ilk şey sürüm kilididir.

Model ağırlıkları yine de elde edilebilir ancak sabit versiyon tekrarlanamayabilir.

Açık kaynaklı bir model halka açıklandıktan sonra, genellikle ilk gevşetilen sürüm sabit sürüm olurken, ağırlık dosyası genellikle en kararlı olanıdır.

Depo adı ve model adı hâlâ oradadır ancak değerlendirmeleri çalıştırmak, regresyonlar yapmak ve trafiği bağlamak için kullanılan gerçek girdi genellikle aynı şey değildir. Bugün çektiğimiz şey main’tir ve gelecek hafta da aynı yol olacaktır, ancak belirteç, şablon, niceleme paketi, varsayılan dtype ve hatta README’de önerilen parametreler değiştirildi. İnternette gördüğünüz şey “modelin kaybolması” değil, “aynı model adının başka bir teslimata dönüşmesi”.

Model erişimini birkaç kez devraldıktan sonra, en kolay göz ardı edilen değerin varsayılan değer olduğunu göreceksiniz. Ağırlık dosyası genellikle birileri tarafından izlenir, ancak varsayılan etiket, varsayılan görüntü, varsayılan şablon ve varsayılan önbellek dizini genellikle gözetimsiz bırakılır. Bir senkronizasyon penceresi sıkıştığında veya ayna istasyonu konfigürasyonu değil sadece ağırlıkları senkronize ettiğinde, ekip birdenbire ellerinde tuttukları şeyin tekrarlanabilir bir versiyon değil, bir dizi değişken isim olduğunu fark edecek.

Varsayılan girişin sürüklenmesi ağırlıktan daha kolaydır.

Ağırlık dosyası statiktir, giriş değildir.

model-name:latest Bu şekilde yazma kolay gibi görünüyor, ancak sorun “ne zaman güncelleneceği” konusunu dışarıya bırakmasıdır. Yukarı akış tokenizer’ı değiştirirse, bir sohbet şablonu eklerse veya ölçüm paketini yeniden yazarsa erişim tarafının davranışı buna göre değişecektir. Değerlendirme puanları yalnızca biraz dalgalanabilir, ancak çevrimiçi çıktının tonu sessizce değişecektir. Sorun gidermenin en zorlu kısmı şudur: günlükte her şey normal görünüyor, ancak aslında başka bir giriş çağrılıyor.

Asıl rahatsız edici olan değişimin kendisi değil, değişimin sınır tanımamasıdır. Ad değişmediği sürece regresyon, gri tonlama ve kaza incelemesi yalnızca sonuçlara odaklanabilir ve nedenleri tahmin edebilir. Model adı orada kalmaya devam ediyor, ancak ekibin bugün aldıkları ürünün geçen hafta referans çizgisini çalıştıran ürünle aynı olup olmadığını doğrulamasının bir yolu yok.

Görüntüler, şablonlar ve niceleme paketleri birlikte dondurulmalıdır

Sadece ağırlığı kilitlemek yeterli değildir.

Açık kaynaklı bir model iş akışına gerçekten girdikten sonra genellikle birden fazla .bin veya .safetensors içerir. Ayrıca tokenizer, sohbet şablonu, çıkarım çerçevesi parametreleri, ölçüm dosyaları, indirme görselleri, başlangıç ​​komut dosyaları ve önbellek yollarını da getirecek. Bunlardan herhangi birinin sürüklenmesi, sonunda “modelin daha da kötüleştiğini” gösterebilir. Aslında değişen çoğu zaman model değil, teslimat paketidir.

model:
  repo: example/model
  revision: 8f3c1a2
  tokenizer_revision: 8f3c1a2
  cache_dir: /opt/model-cache

Bu tür bir yapılandırma ayrıntılı görünebilir ancak üç şeyle sonuçlanır: görüntü kullanılabilirlikten sorumludur, sürüm numarası ve karma tekrarlanabilirlikten sorumludur ve başlangıç komut dosyası tutarlı çıkarım parametrelerinden sorumludur. Bu katmanlardan herhangi biri olmadan, “zaten halka açık” olarak adlandırılan model yalnızca yarı mamul bir ürün olarak kabul edilebilir. Erişim tarafı için en önemli şey indirilip indirilemeyeceği değil, indirilen içeriğin üç hafta sonra da aynı sonuçları üretip üretemeyeceğidir.

Asıl korunması gereken şey üreme yeteneğidir

Açık kaynak modeli halka açıldıktan sonra ekibin koruması gereken şey gizemli bir giriş değil, tekrarlanabilirliktir.

Once the reproducibility is interrupted, the evaluation baseline will drift, the A/B results will be distorted, and the accident playback will lose reference. Herkes “geçen hafta normaldi” diyerek sorunu tartışırken, sürüm yönetimi temelde başarısız oldu. Bu noktada model yeteneklerinden bahsetmek pek mantıklı değil; ancak sabit sürümün sıkılaştırılması, görüntü senkronizasyonu, hash doğrulama ve geri alma yolunun sıkılaştırılmasıyla etki hakkında konuşmaya devam etme hakkına sahip olabiliriz.

Bu tür bir model, bir web hizmetinden çok bir yazılım eserine benzer. Web sayfası bozuksa hala 500’ü görebilirsiniz ve model sürümü değişiyor ve çoğu durumda çıktıda yavaş yavaş değişecek. Görünüşte hala aynı adı taşıyor ama aslında sistemin yarısı değiştirilmiş.