Veri Seti Nedir ve Nerede bulunur?

Elif Meşeci
5 min readAug 9, 2021

Bir veri seti, basitçe anlatmak gerekirse bir amaç için toplanmış veri topluluğudur. Veri seti için en yaygın biçimi satırlar ve sütunlardan oluşan bir tablo olarak düzenlenmiş tek bir dosya olan çevrimiçi elektronik tablo, json veya csv uzantılı bir dosya olarak bulunabilir.

Veri seti, resimler, videolar, ses dosyaları, sayısal veriler veya metinsel verilerden oluşabilir ve farklı formatlarda saklanabilir. Bazen bir veri seti, ilgili verilerle birden çok veri tablosu içeren bir zip dosyası veya klasör olabilir. Her zaman tek bir dosya olarak karşımıza çıkmayabilir.

Photo by Mika Baumeister on Unsplash

Veri setleri nasıl oluşturulur?

Bir veri setiyle çalışıyorsanız, “Veri seti nasıl oluşturuldu?” diye düşünebilirsiniz. Veri setleri farklı şekillerde oluşturulabilir. Bazıları makine tarafından oluşturulan, web sitelerinden veya API’ lar aracılığıyla alınan veriler olabilir. Bazıları anketler yoluyla toplanan verilerden veya insan gözleminden kaydedilen veriler olabilir.

Photo by Ferenc Almasi on Unsplash

Veri setini analiz etmeden önce üzerinde çalıştığınız verileri anlamak için zaman ayırmanız ileride yapacağınız projede kolaylık sağlayacaktır. Çünkü veriyi anlamak, temel olarak verinin özelliklerinin ve yapabileceklerinin farkında olmaktır.

Veri Seti Nerede Bulunur?

🟣 Kaggle

Hem kolay kullanımı hem kod yazılabilen bir platform olması ile benim veri seti ararken ilk başvurduğum yerdir.

Kaggle, veriler hakkında tartışabileceğiniz, bazı genel kodlar bulabileceğiniz veya kendi projelerinizi oluşturabileceğiniz bir platformdur. Birçok farklı formatta ve çok sayıda gerçek veri seti içerir. Ayrıca, başka veri bilimcilerinin veri setini analiz etmek için oluşturduğu not defterlerini de görebilirsiniz. Böylece sizinle aynı veri setini kullanan başka kişilerin problemi nasıl çözdüğü konusunda fikir edinebilir, yorum yapabilir ve geliştirebilirsiniz.

🟣 UCI Machine Learning Repository

UCI, makine öğrenimi algoritmalarının deneysel analizi için kullanılan veri tabanları ve veri oluşturuculardan oluşan bir koleksiyondur. Bünyesinde yüzlerce veri seti barındıran çeşitli ve popüler veri setlerine ulaşabileceğiniz büyük bir depodur. UCI’ deki çoğu veri seti önceden temizlenmiş ve kullanıma hazır bir şekilde sunulmuştur. Veri setlerini makine öğrenimi probleminin türüne, değişken sayısına, veri tipine göre sınıflandırır. Böylece aranan özelliklere uygun veri seti bulmayı kolaylaştırır.

uci datasets

Screenshot from UCI Repository

🟣 AWS (Amazon Web Services) Public Data Set

Veri setlerini bulmanıza yardımcı olacak bir arama kutusuna sahiptir. Veri setleri açıklaması ile birlikte verilmiştir. Veri setleri bilgilendirici ve kullanımı kolay örnekler içerir.

🟣 Microsoft Datasets

Doğal dil işleme, bilgisayarlı görü gibi alanlarda araştırmaları ilerletmek için Microsoft Research’ ten ücretsiz veri setleri koleksiyonuna göz atabilirsiniz.

🟣 Awesome Public Datasets Collection

Biyoloji, ekonomi, eğitim vb. konulara göre düzenlenmiş harika bir veri seti kaynağıdır. Listelenen veri setlerinin çoğu ücretsizdir ve verilen linklerin bazıları yine GitHub’ a veya başka sitelere yönlendiriyor.

🟣 FiveThirtyEight

Screenshot from FiveThirtyEight

FiveThirtyEight aslında çok fazla veri görselleri içeren bir haber ve spor sitesidir. Birçok verisini halka açık bir şekilde sunar. Veri setlerinin ne zaman güncellendiği ve veri setinin bilgisine erişebilirsiniz. Yukarıdaki şekilde gördüğünüz gibi indirme bağlantısıdan veya info bağlantısından GitHub’ a giderek veri setine erişebilirsiniz.

🟣 World Bank Open Data

Dünya Bankası’ ndan açık verilere ulaşabilirsiniz. Platform, Açık Veri Kataloğu, dünya kalkınma endeksleri, eğitim endeksleri vb. gibi çeşitli araçlar sunar. Her ülkenin açık verileri, ülke olarak, veri seti tipi olarak kategorilere ayrılmış olmasıyla ilginizi çekecek ve basit ve genel veri setlerine erişebileceğiniz Word Bank’ a göz atabilirsiniz.

🟣 Visual Data

Görüntü işleme, bilgisayarla görme veya derin öğrenme üzerinde çalışıyorsanız, bir çok veri setine buradan ulaşabilirsiniz. Veri setlerinin hangi alanda kullanıldığı ve popülerliğini gösteren kutucuklara tıkladığınızda veri setine ve açıklamasına erişebilirsiniz.

🟣 Academic Torrents

Bilimsel makalelerden veri setlerini paylaşmaya yönelik bir sitedir. Veri setlerine doğrudan sitede göz atabilir ve indirebilirsiniz.

academic torrents

🟣 Socrata

Socrata, devlet, iş ve eğitim veri setlerini temizlenmiş ve açık kaynak olarak veri setlerini barındırır.

🟣 BuzzFeedNews

GitHub üzerinden veri seti, kütüphane, araç ve kılavuz paylaşımı yapan BuzzFeed’ i inceleyebilirsiniz.

🟣 Quandl

Quandl, web sitesi veya birkaç araçla doğrudan entegrasyon aracılığıyla çeşitli kaynaklardan finansal, ekonomik ve alternatif veri setleri sağlar. Veri setlerinin bazıları ücretsizken bazıları satın alma işlemi gerektirir.

🟣 Youtube

Video kimliği ve ilişkili etiketlerden oluşan YouTube etiketli veri setlerine göz atabilirsiniz.

🟣 Google’s Datasets Search Engine

Eğer özellikle aradığınız bir veri seti varsa Google her platformdan arama yaparak aradığınız veri setini bulmanıza yardımcı olur.

🟣 Bazı Devletlerin Veri Setleri

◼ ABD Veri Setleri

◼ Avrupa Hükümeti Veri Setleri

◼ Yeni Zelanda Devlet Veri Setleri

◼ Hindistan Hükümeti Veri Setleri

data.gov.in

◼ Kuzey İrlanda Kamu Veri Setleri

--

--

Elif Meşeci

Artificial Intelligence Specialist at SimurgAI || Computer Engineer