Geçtiğimiz birkaç yıl, istatistiksel yöntemlerin farklı alanlarda ve farklı amaçlarla artan uygulamalarına tanık oldu. Bu farklılıklar, mevcut yöntemlerin eksikliklerini ortaya çıkardı. Bununla birlikte, 1990’da İnternet bir hit haline gelene kadar, o zamanki mevcut istatistiksel yöntemlerle ilgili memnuniyetsizlik, yöntemler gittikçe daha dezavantajlı hale geldiği için önemli ölçüde arttı. Bu, nihayetinde, büyük miktarlarda bilginin sınıflandırılmasında kullanılabilecek daha yenilikçi bir istatistiksel yaklaşım için özenli araştırmayı teşvik etti.
1990’ların başında, Vladimir Vapnik, bir grup diğer matematikçi ve bilim adamıyla birlikte, özellikle büyük sınıflandırma problemleriyle başa çıkmada daha etkili olan yeni bir istatistiksel yaklaşım geliştirdi. Bu yeni yaklaşıma Destek Vektör Makineleri (SVM) adı verildi.
Sorduğunuz Destek Vektör Makineleri nelerdir? Bu, bir bilgisayara büyük miktarda veriyi sınıflandırmayı öğretmeyi mümkün kılan matematiksel bir prosedürdür. Sonuçların eski istatistiksel yöntemlere göre daha güvenilir olduğu söyleniyor. Bir destek vektör makinesi, bir dizi etiketli eğitim verisinden işlevler oluşturmak için bir yaklaşımdır.
Bir destek vektör makinesinin nasıl çalıştığını tam olarak anlamak için, önce bazı temel faktörleri de anlamak zorunludur. Sınıflandırma normalde belirli veri örneklerinden oluşan eğitim ve test verileriyle ilişkilendirilir. Eğitim kümesindeki her örnek bir “hedef değer” (sınıf etiketleri) ve çok sayıda “öznitelik” (özellik) içerir. Destek vektör makinesinin temel amacı, test setindeki yalnızca özniteliklere verilen veri örneklerinin hedef değerini hesaplayan bir model oluşturmaktır.
Bir destek vektör makinesinin iki ana işlevi vardır. Birincisi, bunun bir sınıflandırma fonksiyonu olabilmesidir (burada çıktı ikilidir: girdi bir kategorideyken). Bu arada, ikinci işlev, basitçe genel bir regresyon işlevi olabilmesidir.
Destek vektör makinelerinin sınıflandırma işlevi ile ilgili olarak, temelde olası girdilerin uzayında bir hiper yüzey arayarak çalışır. Bu hiper yüzey daha sonra olumlu örnekleri olumsuz olanlardan ayırmaya çalışacaktır. Bölme, hiper yüzeyden en yakın pozitif ve negatif örneklere kadar en büyük mesafeye sahip olacak şekilde seçilecektir. Doğal olarak, bu, eğitim verilerinden biraz farklı olsa da yakın olan verileri test etmek için sınıflandırmanın doğru olmasını sağlayacaktır. Destek vektör makinelerini eğitmenin birçok yolu vardır ve en basit ve en hızlı yönteme Sıralı Minimal Optimizasyon denir.
Bir destek vektör makinesinin çıktısı düzensiz bir değere sahiptir ve bir girdi verilen bir sınıfın müteakip beklentisi değildir. Bununla birlikte, destek vektör makinesi çıktılarını arka olasılıklara eşleyebilen son zamanlarda oluşturulmuş algoritmalar vardır.
Destek vektör makineleri sınıflandırıcısı, özellikle metin sınıflandırırken sıklıkla karşılaşılan büyük ölçekli sınıflandırma sorunlarını çözmek için tasarlanmış güçlü araçlardır. Örneğin, aslında ilişkili bir küme olan büyük bir belge grubuna ait olan belgelerden birine bakarsanız, tüm kümede bulunan tüm sözcükleri dikkate alırsanız, belgeye kıyasla belgede eksik olan daha fazla sözcük bulursunuz. belgede bulunan kelime sayısı. Bu sınıflandırma problemine seyrek veri matrisi denir. Çok sayıda belge ve çok sayıda sözcük ve seyrek veri matrisi gibi sınıflandırma problemleri, çok daha hızlı ve daha verimli sonuç alabilen bir sınıflandırma motoruna ihtiyaç duyar.
Piyasadaki diğer her şeyde olduğu gibi, günümüzde destek vektör makinesi sınıflandırıcısı da internetten temin edilebilmektedir. Ağda hızlı bir arama, size, farklı problemler için uygun, özellikle sayfaların İnternetin yanı sıra seyrek matrisler ve çok sayıda belgeyle ilgili diğer sorunlar. Çoğu yöntemin yapısı farklı olsa da, tek bir ortak faktörü vardır ve bu, doğrusal sınıflandırma tekniklerini doğrusal olmayan sınıflandırma problemlerine uygulamak için “çekirdek numarası” adı verilen bir tekniği kullanır.
Bu tür problemlerin en küçük kareler doğasını dayatan ve alışılagelmiş işleminde kesin çizgi aramasını kullanan bazı yöntemler vardır, daha sonra soruna uygun eşlenik gradyan yöntemini kullanır.
Bununla birlikte, destek vektör makinelerinin dezavantajları payı vardır. Destek vektör makinesi sınıflandırıcısındaki bir sorun, İnternette bulunan çok sayıda metin sayfasının sınıflandırılmasında bulunanlar gibi normalde metin yoğun sorunlardan kaynaklanan verilerin vektör makinesi işlemesini desteklemek için gerekli olan bilgisayar belleğinin olmamasıdır.
Bilgisayarların bu tür verileri sınıflandırmayı öğrenme yeteneğini artıran bir çözüme yığın oluşturma denir. Parçalama, sorunun mevcut bilgisayar kaynaklarının araçları dahilinde daha uygun parçalara bölündüğü süreci ifade eder. Destek vektör makineleri için bu tür sorunları azaltmak için kullanılan yığın ayrıştırma tekniklerinin örnekleri SMO ve SVM Light’tır.
Bununla birlikte, burada bir dezavantaj var. Hız artışı, özellikle genellikle en büyük ve en zor metin problemlerini içeren web sayfaları için ihtiyaç duyulanlar gibi sınıflandırıcılar tasarlamak için sadece orta düzeydedir. Hızın zorunlu olduğunu unutmayın. Bu nedenle, destek vektör makinelerinin eğitim süresini azaltmak için, önemli ölçüde daha hızlı ve mevcut sınıflandırıcı motorlara karşılık gelen bir hassasiyete sahip bir destek vektör makinesi sınıflandırıcı tasarımına ihtiyaç vardır.
Ara sıra ortaya çıkan dezavantajlara bakılmaksızın, bir destek vektör makinesi sınıflandırıcısı, sınıflandırma için modeller elde etmek için hala çok güçlü bir yöntemdir. Hata ve riskler için düşük bir marj sunan doğal bir yaklaşımla model yapısının seçilmesi için bir mekanizma sağlar. Destek vektör makineleri sınıflandırıcısı, günümüzün modern toplumunda gerçekten önemli araçlar haline geldi. Matematikçilerin ve bilim adamlarının neden hala bu yeni öğrenim makinelerini daha da geliştirmek için yeni yollar aradıkları merak mı?
GIPHY App Key not set. Please check settings