У нас вы можете посмотреть бесплатно Veri Ön İşleme 1 : Veri Temizleme (Veri Madenciliği Teorik 2) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Veri Kalitesi (data quality) Çok boyutlu olarak veri kalitesi kriterleri : Neden Ön işlem yapılır? Kesinlik (Accuracy) doğru ve yanlış veriler Tamamlık (Completeness) : kaydedilmemiş veya ulaşılamayan veriler Tutarlılık (Consistency) verilerin bir kısmının güncel olmaması, sallantıda veriler (dangling) Güncellik (Timeliness) İnandırıcılık (Believability) Yorumlanabilirlik (Interpretability): Verinin ne kadar kolay anlaşılacağı Gerçek hayattaki veriler kirlidir: Çok sayıda makine, insan veya bilgisayar hataları, iletim bozulmaları yaşanabilir. Eksik Veri (incomplete) bazı özelliklerin eksik olması (missing data), sadece birleşik verinin (aggregate) bulunması örn., Meslek=“ ” (girilmemiş) Gülrültülü Veri (noisy): Gürültü, hata veya aykırı veriler bulunması örn., Maaş=“−10” (hata) Tutarsız Veri (inconsistent): farklı kaynaklardan farklı veriler gelmesi Yaş=“42”, Doğum Tarihi=“03/07/2010” Eski notlama “1, 2, 3”, yeni notlama “A, B, C” Tekrarlı kayıtlarda uyuşmazlık Kasıtlı Problemler (Intentional) Doğum tarihi bilinmeyen herkese 1 Ocak yazılması Veriye her zaman erişilmesi mümkün değildir Örn., bazı kayıtların alın(a)mamış olması. Satış sırasında müşterilerin gelir düzeyinin yazılmamış olması. Eksik veriler genelde aşağıdaki durumlarda olur: Donanımsal bozukluklardan Uyuşmazlık yüzünden silinen veriler Anlaşılamayan verilerin girilmemiş olması Veri girişi sırasında veriye önem verilmemiş olması Verideki değişikliklerin kaydedilmemiş olması Eksik verilerin çözülmesi gerekir İhmal etme: Eksik veriler işleme alınmaz, yokmuş gibi davranılır. Kullanılan VM yöntemine göre sonuca etkileri bilinmelidir. Eksik verilerin elle doldurulması: her zaman mümkün değildir ve bazan çok uzun ve maliyetli olabilir Otomatik olarak doldurulması Bütün eksik veriler için yeni bir sınıf oluşturulması (“bilinmiyor” gibi) Ortalamanın yazılması Sınıf bazında ortalamaların yazılması Bayesian formül ve karar ağacı uygulaması Gürültü (Noise): ölçümdeki rasgele oluşan değerler Yanlış özellik değerleri aşağıdaki durumlarda oluşabilir: Veri toplama araçlarındaki hatalar Veri giriş problemleri Veri iletim problemleri Teknoloji sınırları İsimlendirmedeki tutarsızlıklar Veri temizlemesini gerektiren diğer durumlar Tekrarlı kayıtlar Eksik veriler Tutarsız veriler Paketleme (Binning) Veri sıralanır ve eşit frekanslarda paketlere bölünür. Eksik veriler farklı yöntemlerle doldurulur: Mean Median Boundary Regrezisyon (Regression) Regrezisyon fonksiyonlarına tabi tutularak eksik verilerin girilmesi Bölütleme (Kümeleme , Clustering) Aykırı verilerin bulunması ve temizlenmesi Bilgisayar ve insan bilgisinin ortaklaşa kullanılması detect suspicious values and check by human (e.g., deal with possible outliers) Verideki farklılıkların yakalanması Üst verinin (metadata) kullanılması (örn., veri alanı (domain, range) , bağlılık (dependency), dağılım (distribution) Aşırı yüklü alanlar (Field Overloading) Veri üzerinde kural kontrolleri (unique, consecutive, null) Ticari yazılımların kullanılması Bilgi Ovalaması (Data scrubbing): Basit alan bilgileri kurallarla kontrol etmek (e.g., postal code, spell-check) Veri Denetimi (Data auditing): veriler üzerinden kural çıkarımı ve kurallara uymayanların bulunması (örn., correlation veya clustering ile aykırıların (outliers) bulunması) Veri Göçü ve Entegrasyonu (Data migration and integration) Data migration Araçları: Verinin dönüştürülmesine izin verir ETL (Extraction/Transformation/Loading) Araçları: Genelde grafik arayüzü ile dönüşümü yönetme imkanı verir İki farklı işin entegre yürütülmesi Iterative / interactive (Örn.., Potter’s Wheels) Aşırı Yüklü Alanların Temizlenmesi Zincirleme (Chaining) Birleştirme (Coupling) Çok Amaçlılık (Multipurpose) Şadi Evren ŞEKER