Clear Sky Science · tr

Tensor dil modeli, verimli tensör derleme için üretken zamanlama sağlıyor

· Dizine geri dön

Neden daha hızlı AI araçları önemli

Yapay zeka güçlendikçe, büyük sinir ağlarını eğitmek ve çalıştırmak çok fazla hesaplama süresi ve enerji gerektirebiliyor. Perde arkasında, derleyici adı verilen özel programlar yüksek seviyeli AI modellerini CPU ve GPU gibi çipler için düşük seviyeli talimatlara çeviriyor. Bu makale, modern dil modellerinden ödünç alınan fikirleri kullanarak bu çeviriyi çok daha hızlı ve günümüzün en iyi el ile ayarlanmış yöntemlerine neredeyse eşdeğer verimlilikte yapmanın yeni bir yolunu tanıtıyor.

Figure 1. Dil modeli, tensör programlarından öğrenerek AI modellerini donanıma hızlıca eşleyip daha hızlı derleme sağlıyor.
Figure 1. Dil modeli, tensör programlarından öğrenerek AI modellerini donanıma hızlıca eşleyip daha hızlı derleme sağlıyor.

AI derleyicilerinin gizli işi

Derin öğrenme modelleri, büyük sayı dizilerini çarpmak veya görüntüler üzerinde kayan filtreler uygulamak gibi birçok tekrarlanan veri işlemesine dayanır. Bu işlemler tensör programları olarak adlandırılan küçük düşük seviyeli programlar halinde uygulanır. Farklı donanımlarda iyi çalışması için her tensör programı dikkatle düzenlenmelidir: döngüler karılara bölünmeli, işler çekirdekler arasında dağıtılmalı ve veriler hızlıca alınabilecek biçimde bellekte yerleştirilmelidir. Mevcut otomatik araçlar ya saatler veya günler sürebilen geniş bir olasılık yelpazesinde arama yapar, ya da hızlı derleme yapan ancak performanstan çok şey kaçırabilecek sabit kurallara güvenir.

Zamanlamayı bir dil görevine dönüştürmek

Yazarlar, bu tensör programlarını düzenleme sorununu bir cümle yazmakmış gibi ele alan Tensor Dil Modeli (TLM) adlı bir çerçeve öneriyor. Her tokenin işlemin, donanımın ve bir zamanlama seçiminin bilgilerini kodladığı kompakt bir “tensör dili” tasarlıyorlar. GPT-2 tarzı bir model, milyonlarca bu tensör cümlesi üzerinde eğitilerek belirli operatörler ve donanım kurulumları ile verimli zamanlamalar arasındaki desenleri öğreniyor. Derleme zamanında birçok seçeneği araştırmak yerine, TLM tek geçişte iyi bir zamanlama üretiyor; bu, bir cümlede bir sonraki kelimeyi tahmin etmeye benziyor.

Yeni sistem nasıl bir araya getiriliyor

Çerçevenin iki ana parçası var. Bir Uzay Kurucu (Space Builder) bir AI modelini inceler, onu daha küçük alt grafiklere böler ve her parça için ümit vaat eden seçenekleri atlamadan yasal zamanlama seçeneklerinin tüm aralığını oluşturur. Bu uzay daha sonra tensör cümlelerine kodlanır. Eğitilmiş TLM tarafından desteklenen bir Üretici (Generator) bu cümleleri donanım ipuçlarıyla birlikte okuyup eksiksiz bir zamanlama kararları dizisi üretir. Tensör dili dikkatle tasarlandığı için üretilen her dizi, mevcut bir derleyici arka ucu tarafından yürütülebilir koda dönüştürülebilen geçerli bir düşük seviyeli programa karşılık gelir.

Deneyler ne gösteriyor

Araştırmacılar, TLM’yi ResNet-50, MobileNetV2, EfficientNet, BERT, GPT-2 ve LLAMA-7B dahil popüler görsel ve dil modellerinden alınan tensör programlarıyla eğitti. Ardından bunu Ansor ve MetaSchedule gibi önde gelen arama tabanlı derleyiciler ve Roller adlı hızlı bir kestirimci sisteme karşı karşılaştırdılar. Birçok test iş yükü boyunca TLM, çalışma süresi açısından arama tabanlı araçlarla eşleşen veya hafifçe geçen programlar üretti ve derlemeyi yaklaşık 61 kata kadar daha hızlı yaptı. Roller ile karşılaştırıldığında, benzer veya daha kısa sürede derlendi ancak modelleri yaklaşık 1,5 kata kadar daha hızlı çalıştırdı. Bu kazanımlar küçük alt grafiklerden uçtan uca tam modellere kadar sürdü ve TLM çalıştırmadan çalıştırmaya deterministik sonuçlar üretti.

Figure 2. Eğitilmiş model, yavaş arama yapmadan hızlı çalışan kod üretmek için birçok seçenek arasından verimli tensör zamanlamalarını seçiyor.
Figure 2. Eğitilmiş model, yavaş arama yapmadan hızlı çalışan kod üretmek için birçok seçenek arasından verimli tensör zamanlamalarını seçiyor.

Sınırlar ve geleceğe yönelik yönelimler

TLM’nin faydaları, eğitim verisinin gelecekteki iş yüklerini ve donanımları ne kadar iyi kapsadığına bağlıdır. Eğitim kümesinde temsil edilmeyen yepyeni bir operatör veya çip türü ortaya çıkarsa, üretilen zamanlamalar daha az verimli olabilir; bu durum daha fazla örnek eklenip model ince ayar yapılana kadar sürebilir. TLM’nin kendisini eğitmek de milyonlarca örnek tensör programı gerektirdiği için kaynak açısından yoğun bir iştir. Yazarlar yaklaşımı daha büyük dil modellerine, daha geniş operatör setlerine ve ek donanım platformlarına genişletmeyi; ayrıca hafif uyarlama yöntemleriyle geliştirmeyi öneriyor.

Günlük AI kullanımı için ne anlama geliyor

Pratik açıdan bu çalışma, hızlı derleme ile hızlı yürütme arasındaki maliyetli takasın sabit olmadığını gösteriyor. Geçmiş optimizasyon deneyimlerinden öğrenen bir dil-modeli tabanlı derleyici, verimli düşük seviyeli kodu neredeyse anında üretebilir. Sık sık büyük AI modelleri dağıtan veya güncelleyen şirketler ve araştırmacılar için böyle bir sistem, dönüş sürelerini büyük ölçüde kısaltırken mevcut araçların ulaştığı en iyi performansa yakın sonuçlar sağlayabilir.

Atıf: Mehmood, S., Arooj, A., Al-Shamayleh, A.S. et al. Tensor language model enables generative scheduling for efficient tensor compilation. Sci Rep 16, 15379 (2026). https://doi.org/10.1038/s41598-026-41392-8

Anahtar kelimeler: tensör derleme, derin öğrenme derleyicileri, dil modelleri, GPU optimizasyonu, model zamanlaması