Skip to content
Kod YazalımBir başka olmaya çabalayan yazılım sitesi
Faruk Çiftler
14 Aralık 2020

Veri Bilimi Notları 1 – Makine Öğrenmesine Giriş

Genel

Belki de veri bilimi konusunda onlarca farklı yazı serisi yazılmıştır. Benim bu yazıyı yazmamdaki amaç nedir diye soracak olursanız, kendime çıkarttığım notları yazarken tekrar etmiş olacağımdan ötürü kendime yarar sağlamak ve bir yandan da bunları sizlerle paylaşarak size de bir nebze olsun fayda sağlayabilmek. Bunu açıkladıktan sonra başlamak istiyorum. Bir yandan da bu yazı serisinde sizlerle beraber bakacağımız konuları aşağıya koyayım. Mavi renkli olanlar yayınlanmış olanlardır. * işareti olanlar da ana başlıklardır.

“the science of making machine do those things that would be considered intelligent if they were done by people.” <marvin minsky>

Öncelikle “Makine Öğrenmesi” dediğimiz kavramdan bahsetmek istiyorum. Makine öğrenmesi dediğimiz şeye aslında tamamen istatistik bilimi ile iç içe geçmiş, sayamayacağımız kadar sayısal analiz tekniğini içerisinde barındıran bir yöntemler bütünü diyebiliriz. Makine öğrenmesini veri tahmini ve daha çeşitli bilgilerin eldesi amacıyla kullanırız. Olasılık ve İstatistik dersinde aldığımız teorik bilgilerin daha gelişmiş versiyonlarını bu yöntemlerde kullanacağız. Lafı daha fazla uzatmadan söze geçiyorum. Daha fazla bilgi sahibi olmak isteyen arkadaşlar sorularını yorum olarak yazarlarsa bildiğim kadarıyla kaynak tavsiyesi, bilgi paylaşımı vb. yardımlarda bulunabilirim.

İlgili Video

Makine öğrenmesi dediğimiz teknikler bütünü öncelikli olarak bilgisayarlar veya bilgisayar işlevi gören işlemcilerle uygulanmakta. Bu kısım şu an için çok önemli olmadığı için sizlerle makine öğrenmesindeki temel kavramlara değineceğim.

Veri: Yorumlanmamış bilgilerdir. Örneğin: bir ilçenin bir gün boyuncaki sıcaklığının saniyelik olarak kaydedilmesiyle oluşmuş yüzbinlerce satırlık bilgiler.

Veri Seti: Birbiriyle arasındaki ilişkinin (korelasyon) olup olmamasının bir önemi olmayan, lakin birden fazla türde verinin birleşimiyle oluşan veri kaynağına denir. Örneğin yukarıdaki örneğe bir de o gün o ilçedeki her saniyede kaydedilen nem verileri de eklenirse bir veri seti elde etmiş oluruz. Makine öğrenmesi uygulamalarında veri setlerini böleriz.

Veri Setleri Neden Bölünür?

Veri setlerinin bölünme nedenini şöyle örnekleyebiliriz. Diyelim ki elimizde 12 aylık bir hava durumu verisi var. Ve biz bu verileri kullanarak hava durumu tahmin uygulaması yapmak ve gelecekteki hava durumlarını tahmin etmek istiyoruz. Makine öğrenmesi algoritmaları kendilerini eğitmek için veriye ihtiyaç duyar. Şöyle düşünebilirsiniz. Bir şehre dair kanaatleriniz memleketi o şehir olan daha önceden tanıdığınız kişilerle oluşur. Memleketi o şehir olan insanların az çok ne özelliklere sahip olduğunu bilirsiniz. İşte makine öğrenmesi uygulamaları da bizden o şehrin insanlarını kafasında bir şekle oturtmak için memleketi o şehir olan insan verilerini ister.

Fakat olay burada bitmiyor. Bizim elimizde sınırlı veri var ve algoritmamızın doğru çalışıp çalışmadığını test etmeliyiz. Diyelim ki tanıdığımız tüm Hataylı insanların verilerini algoritmamıza verdik. Bu sefer doğru çalışıp çalışmadığını test etmek için elimizde insan verisi kalmaz. Bundan dolayı verilerimizi ikiye ayırırız. Hataylı insanları tanıması için insan verilerimizin bir kısmını veririz. Lakin doğru çalışıp çalışmadığını test etmek için de verilerimizin kalan kısmını saklarız. Veri setleri genel olarak ikiye bölünür.

Eğitim Seti: Eğitim seti makine öğrenmesi algoritmasının eğitilmesi için verileri tanıması ve tahminlerini bu veriler üzerinden yapması için oluşturulan settir. Buna kısaca bundan sonraki verilere belli şekillerde önyargılı olmasını sağlayan veri seti diyebiliriz.

Test Seti: Eğitim seti kullanılarak oluşturulan algoritmanın ne derece doğru çalıştığını test etmek için daha önce kenara ayırdığımız veri setidir.

Bir sonraki yazımda temel makine öğrenmesi kütüphanelerinden, verisetini Python’a eklemekten bahsedeceğim.

İyi Çalışmalar 🙂

Bir cevap yazın Cevabı iptal et

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Arşivler

  • Aralık 2020
  • Kasım 2020

Calendar

Aralık 2020
P S Ç P C C P
 123456
78910111213
14151617181920
21222324252627
28293031  
« Kas    

Kategoriler

  • Genel