🌳 Random Forest Regresyon
Rastgele orman problemi çözme yada tahminde bulunmak için birden fazla karar ağacının performansını birleştiren büyük bir karar ağacı yapısıdır.
Bazı Parametreler
➡️n_estimators = Model kurulumunda kullanılacak ağaç sayısıdır.Varsayılann değer 100 dür.
criterion = Bir düğümün bölünmesindeki kaliteyi ölçmek için kullanılır.
➡️max_depth= Ağacın maksimum büyüyebileceği derinlik sayısıdır.Modelin iyi tahmin edilmesinde önemli rol oynayan bir parametredir fakat kontrollü değer ataması yapılmalıdır. Overfitting problemi ortaya çıkabilir.
➡️max_features =Karar düğümlerin bölünmesinde kullanılacak maksimum özellik sayısıdır. Aldığı değerler ={none, sqrt, log2} varsayılan değer= sqrt’dir.
➡️boostrap = Ağaç yapısı ön yükleme ile oluşturulacaksa bu değer True olmalıdır. Eğer false olarak ayarlanırsa veri setinin tamamı kullanılır. Varsayılan değer True’dur.
➡️min_samples_split = Bir düğümü başka düğümlere bölerken göz önüne alınacak örnek sayısıdır. Genellikle değer 2 ile 6 arasındadır. Varsayılan değer ise 2 dir.
➡️min_samples_leaf= Bir düğümü bölmek için gerekli olan minimum yaprak sayısıdır. Varsayılan değer 1 dir.
➡️n_jobs = Modelde kullanılacak işlmeci sayısıdır. Varsaylan değer 1 dir.
➡️ramdom_state= Oluşturulan modelimizde aynı hiper-parametreler ve aynı verileri kullandığımız zaman farklı sonuçlar almamak için verilen rastgele değerdir.
🎯Çalışma Modeli
Model için parametre ayarları yapıldıktan sonra karar ağaçları oluşturulur. Bu model bir bagging öğrenme modeli olduğu için karar ağaçları paralel şekilde eğitilir. Her karar ağacı rastgele ve birbirinden bağımsız olarak tahmin sonucu üretir.Elde edilen tahmin sonuçlarının ortalaması alınarak yada çoğunluğun oyu dikkate alınarak modelin nihai tahmin sonucu belirlenir. Oluşturulan model tek bir karar ağacının değil birçok karar ağacının tahminlerinden oluşur.
Modelin Avantajları
Hem sınıflandırma hem de regresyon problemleri için uygulanabilir.
Overfitting sorunun ortadan kaldırması
Veri setinde eksik boş aykırı değerler olsa bile tahmin performansını etkilememesi
büyük ve karmaşık veri setlerinde verimli şekilde çalışır.
Modelin Dezavantajları
Regresyon problemleri için elverişli değildir.
Büyük veri setlerinde hesaplama maliyetlerinde artışa sebep olabilir.
Karar ağaçlarına göre eğitim süresi uzundur. Bunun nedeni ise birden fazla karar ağaçlarının eğitimini biraz daha zaman alıcı olmasıdır.
Birden fazla karar ağacı olmasındann dolayı anlaışılması ve yorumlanması biraz daha zordur.