Clear Sky Science · tr
Uzman bilgisi ve alan ontolojisi kurulumuyla kendi kendine denetimli kavramların tanıtımı yoluyla e-ticaret ürün ham maddelerinin otomatik sınıflandırma yöntemi
İnternette ürünleri içeriklerine göre sıralamanın önemi
Un veya atıştırmalık gibi ürünleri çevrimiçi satın alırken genellikle ürünün ne işe yaradığına göre arama yaparsınız—kek karışımı, ekmek unu, pişirme malzemeleri gibi. Ancak şirketler, düzenleyiciler ve hatta sağlığına dikkat eden tüketiciler sık sık bu ürünlerin neyden yapıldığıyla daha çok ilgilenir. Bugünün e-ticaret siteleri nadiren ürünleri ham madde bazında düzenler ve bunu elle düzeltmek milyonlarca ürün sayfasını tek tek kontrol etmeyi gerektirir. Bu çalışma, uzman bilgisi ile makine öğrenmesini harmanlayarak çevrimiçi ürünleri altta yatan içeriklerine göre otomatik olarak yeniden gruplandırmanın bir yolunu öneriyor.
Karma karışık ürün rafları sorunu
Büyük e-ticaret platformları milyonlarca öğe listeler ve bunları genellikle işlevine göre düzenler: “pişirme karışımı” ya da “atıştırmalık” gibi, buğday, karabuğday veya mısır yerine. Sonuç olarak aynı tahıldan yapılan iki un farklı kategorilere düşebilirken, farklı içeriklere sahip ürünler benzer amaçlarla kullanıldıkları için aynı yerde toplanabilir. Bu, alışveriş yapanlar için uygun olsa da ham maddeye göre satış veya kalite takibi yapmak isteyen satıcılar ve analistler için baş ağrısıdır. Mevcut otomatik sınıflandırma yöntemleri çoğunlukla platformun kendi etiketlerini kopyalar ve birçok elle etiketlenmiş örnek gerektirir; bu maliyetli olup işletmelerin ihtiyaç duyduğu içerik tabanlı bakışı çözmez.

Ürün içeriklerinin akıllı haritasını oluşturmak
Araştırmacılar bunu öncelikle alan uzmanlarından un dünyasının yapılandırılmış bir “haritasını”, yani bir alan ontolojisini tasarlamalarını isteyerek ele aldı. Basitçe söylemek gerekirse, bu buğday, tam buğday, mısır, karabuğday, pirinç ve yapışkan pirinç gibi un türlerinin ve bunları ayıran ham tahıl, gluten dayanımı, kalite sınıfı, marka ve menşei gibi ana özelliklerin dikkatli bir listesidir. Ardından ekip, birkaç Çin platformundaki gerçek ürün sayfalarından marka adları veya menşe için tipik ifadeler gibi bu özelliklerle eşleşen binlerce somut ifade topladı. Yakın yazım hatalarını ve eşanlamlıları yakalamak için desen eşleme kuralları ve dizgiler arasındaki uzaklık ölçüsüne dayanarak, aynı un türünün biraz farklı adları gibi örnekleri alan‑özel bir kelime listesine dahil ettiler.
Verinin kendine etiket vermesine izin vermek
Sonraki adımda yazarlar kendi kendine denetimli öğrenme fikrini uyarladı: her örneği insanlar etiketlemek yerine, verinin kendi etiketlerinin çoğunu oluşturmasına izin verdiler. Ontolojileri ve kelime listelerini kullanarak, içerik özelliklerinin bir kategoriyle nasıl bir araya gelmesi gerektiğini söyleyen kurallar yazdılar. Bir ürünün ayrıntıları açıkça mısırın ana tahıl olduğunu belirtiyor ve diğer özellikler mısır unu profilini karşılıyorsa, sistem o listelemeyi otomatik olarak mısır ununun “standart” örneği olarak kabul eder ve kategori etiketini onaylar. Özellikleri uzman kurallarıyla çelişen veya çok belirsiz olan listeler “standart olmayan” olarak muamele görür ve etiketlenmemiş vakalar olarak ayrılır. Bu yolla model, elle inceleme yapmadan dağınık katalog verilerinden doğrudan binlerce temiz eğitim örneği toplar.

Sınıflandırıcıyı ham maddeleri tanıyacak şekilde eğitmek
Standart örnekler elde edildikten sonra sistem her ürünün metnini makine tarafından okunabilir özelliklere dönüştürüyor. Çin dili için geliştirilmiş güçlü bir dil modeli kullanarak marka, içerik adları ve menşei gibi önemli varlıkları çıkarır ve bunları alan kelime listesine ekler. Bir tokenleştirici daha sonra ürün başlıklarını ve açıklamaları anlamlı parçalara böler, yaygın dolgu kelimelerini kaldırır ve her terimin veri seti genelinde ne kadar ayırt edici olduğuna dair sayısal bir profil oluşturur. Klasik makine öğrenimi sınıflandırıcıları bu profiller ve otomatik olarak atanmış içerik kategorileri üzerinde eğitilir. Yazarlar, 18.000’den fazla un ilanı üzerinde birkaç algoritmayı test etti ve nispeten basit bir yöntem olan lojistik regresyon modelinin hız ve doğruluk açısından en iyi dengeyi sunduğunu buldular.
Sistemin ne kadar iyi çalıştığı — ve neden genel yapay zekayı geride bıraktığı
Büyük Çin platformlarından toplanan un verileri üzerinde içerik tabanlı sınıflandırıcı genel olarak yaklaşık %91 doğruluk elde etti. Standart buğday ve yapışkan pirinç unu gibi yaygın unları tanımada özellikle güçlüydü ve ürünlerin sıklıkla tahıl karıştırdığı karabuğday ve mısır gibi daha zor kategorilerde de makul düzeyde performans gösterdi. Alan‑özel kelime listesinin eklenmesi, yalnızca hazır metin özellikleri kullanmaya kıyasla sonuçları açıkça iyileştirdi. Ekip ayrıca aynı görevi veri seti üzerinde önceden eğitim olmadan yapması istenen geniş amaçlı bir dil modeliyle karşılaştırdı. O sıfır‑atış (zero‑shot) model daha nadir un türlerinde özellikle geride kaldı; bu da uzman bilgisiyle hedeflenmiş makine öğrenimini birleştirmenin, yalnızca geniş ama yüzeysel dil anlayışına güvenmekten daha avantajlı olduğunu gösteriyor.
Çevrimiçi alışveriş ve ötesi için bunun anlamı
Basitçe söylemek gerekirse, çalışma e‑ticaret platformlarının ürünleri sadece ne işe yaradıklarına göre değil, neyden yapıldıklarına göre de otomatik olarak yeniden gruplandırabileceğini gösteriyor. İçerikler hakkında uzman bilgisini yeniden kullanılabilir bir haritaya kodlayıp ürün sayfalarının kendini etiketlemesine izin vererek yaklaşım, elle etiketleme ihtiyacını keskin şekilde azaltırken yüksek doğruluğu koruyor. Satıcılar ve analistler için bu, daha temiz satış istatistikleri, daha iyi kalite kontrol ve alerjen takibi ya da beslenme eğilimleri gibi konulara daha kesin tepkiler için kapı açıyor. Örneği un üzerinde gösterilse de tarif—uzman tarafından oluşturulmuş ontolojiler, kendini etiketleme kuralları ve hafif sınıflandırıcılar—ham maddelerin gerçekten önemli olduğu birçok başka ürün kategorisine uyarlanabilir.
Atıf: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
Anahtar kelimeler: e-ticaret sınıflandırması, ürün içerikleri, kendi kendine denetimli öğrenme, alan ontolojisi, metin madenciliği