Veri Seti Nedir ve Nerede bulunur?
Bir veri seti, basitçe anlatmak gerekirse bir amaç için toplanmış veri topluluğudur. Veri seti için en yaygın biçimi satırlar ve sütunlardan oluşan bir tablo olarak düzenlenmiş tek bir dosya olan çevrimiçi elektronik tablo, json veya csv uzantılı bir dosya olarak bulunabilir.
Veri seti, resimler, videolar, ses dosyaları, sayısal veriler veya metinsel verilerden oluşabilir ve farklı formatlarda saklanabilir. Bazen bir veri seti, ilgili verilerle birden çok veri tablosu içeren bir zip dosyası veya klasör olabilir. Her zaman tek bir dosya olarak karşımıza çıkmayabilir.
Veri setleri nasıl oluşturulur?
Bir veri setiyle çalışıyorsanız, “Veri seti nasıl oluşturuldu?” diye düşünebilirsiniz. Veri setleri farklı şekillerde oluşturulabilir. Bazıları makine tarafından oluşturulan, web sitelerinden veya API’ lar aracılığıyla alınan veriler olabilir. Bazıları anketler yoluyla toplanan verilerden veya insan gözleminden kaydedilen veriler olabilir.
Veri setini analiz etmeden önce üzerinde çalıştığınız verileri anlamak için zaman ayırmanız ileride yapacağınız projede kolaylık sağlayacaktır. Çünkü veriyi anlamak, temel olarak verinin özelliklerinin ve yapabileceklerinin farkında olmaktır.
Veri Seti Nerede Bulunur?
🟣 Kaggle
Hem kolay kullanımı hem kod yazılabilen bir platform olması ile benim veri seti ararken ilk başvurduğum yerdir.
Kaggle, veriler hakkında tartışabileceğiniz, bazı genel kodlar bulabileceğiniz veya kendi projelerinizi oluşturabileceğiniz bir platformdur. Birçok farklı formatta ve çok sayıda gerçek veri seti içerir. Ayrıca, başka veri bilimcilerinin veri setini analiz etmek için oluşturduğu not defterlerini de görebilirsiniz. Böylece sizinle aynı veri setini kullanan başka kişilerin problemi nasıl çözdüğü konusunda fikir edinebilir, yorum yapabilir ve geliştirebilirsiniz.
🟣 UCI Machine Learning Repository
UCI, makine öğrenimi algoritmalarının deneysel analizi için kullanılan veri tabanları ve veri oluşturuculardan oluşan bir koleksiyondur. Bünyesinde yüzlerce veri seti barındıran çeşitli ve popüler veri setlerine ulaşabileceğiniz büyük bir depodur. UCI’ deki çoğu veri seti önceden temizlenmiş ve kullanıma hazır bir şekilde sunulmuştur. Veri setlerini makine öğrenimi probleminin türüne, değişken sayısına, veri tipine göre sınıflandırır. Böylece aranan özelliklere uygun veri seti bulmayı kolaylaştırır.
🟣 AWS (Amazon Web Services) Public Data Set
Veri setlerini bulmanıza yardımcı olacak bir arama kutusuna sahiptir. Veri setleri açıklaması ile birlikte verilmiştir. Veri setleri bilgilendirici ve kullanımı kolay örnekler içerir.
🟣 Microsoft Datasets
Doğal dil işleme, bilgisayarlı görü gibi alanlarda araştırmaları ilerletmek için Microsoft Research’ ten ücretsiz veri setleri koleksiyonuna göz atabilirsiniz.
🟣 Awesome Public Datasets Collection
Biyoloji, ekonomi, eğitim vb. konulara göre düzenlenmiş harika bir veri seti kaynağıdır. Listelenen veri setlerinin çoğu ücretsizdir ve verilen linklerin bazıları yine GitHub’ a veya başka sitelere yönlendiriyor.
🟣 FiveThirtyEight
FiveThirtyEight aslında çok fazla veri görselleri içeren bir haber ve spor sitesidir. Birçok verisini halka açık bir şekilde sunar. Veri setlerinin ne zaman güncellendiği ve veri setinin bilgisine erişebilirsiniz. Yukarıdaki şekilde gördüğünüz gibi indirme bağlantısıdan veya info bağlantısından GitHub’ a giderek veri setine erişebilirsiniz.
🟣 World Bank Open Data
Dünya Bankası’ ndan açık verilere ulaşabilirsiniz. Platform, Açık Veri Kataloğu, dünya kalkınma endeksleri, eğitim endeksleri vb. gibi çeşitli araçlar sunar. Her ülkenin açık verileri, ülke olarak, veri seti tipi olarak kategorilere ayrılmış olmasıyla ilginizi çekecek ve basit ve genel veri setlerine erişebileceğiniz Word Bank’ a göz atabilirsiniz.
🟣 Visual Data
Görüntü işleme, bilgisayarla görme veya derin öğrenme üzerinde çalışıyorsanız, bir çok veri setine buradan ulaşabilirsiniz. Veri setlerinin hangi alanda kullanıldığı ve popülerliğini gösteren kutucuklara tıkladığınızda veri setine ve açıklamasına erişebilirsiniz.
🟣 Academic Torrents
Bilimsel makalelerden veri setlerini paylaşmaya yönelik bir sitedir. Veri setlerine doğrudan sitede göz atabilir ve indirebilirsiniz.
🟣 Socrata
Socrata, devlet, iş ve eğitim veri setlerini temizlenmiş ve açık kaynak olarak veri setlerini barındırır.
🟣 BuzzFeedNews
GitHub üzerinden veri seti, kütüphane, araç ve kılavuz paylaşımı yapan BuzzFeed’ i inceleyebilirsiniz.
🟣 Quandl
Quandl, web sitesi veya birkaç araçla doğrudan entegrasyon aracılığıyla çeşitli kaynaklardan finansal, ekonomik ve alternatif veri setleri sağlar. Veri setlerinin bazıları ücretsizken bazıları satın alma işlemi gerektirir.
🟣 Youtube
Video kimliği ve ilişkili etiketlerden oluşan YouTube etiketli veri setlerine göz atabilirsiniz.
🟣 Google’s Datasets Search Engine
Eğer özellikle aradığınız bir veri seti varsa Google her platformdan arama yaparak aradığınız veri setini bulmanıza yardımcı olur.
🟣 Bazı Devletlerin Veri Setleri
◼ ABD Veri Setleri
◼ Avrupa Hükümeti Veri Setleri
◼ Yeni Zelanda Devlet Veri Setleri
◼ Hindistan Hükümeti Veri Setleri
◼ Kuzey İrlanda Kamu Veri Setleri