Herhangi bir durumun kontrol altında olduğu ve beklenilen sonucun alınacağı müjdesini veren bir cümledir “tüm veriler normal” cümlesi. Operasyondan çıkan bir hastanın güncel durum verileri veya havaalanında yurtdışına çıkış yapan yolcunun pasaport kontrolünde aldığı onay gibi. Eğer tüm veriler normal ve istenilen gibiyse devam etmek için bir engel kalmamıştır.
Veri madenciliğinde, verilerin ön işlenmesi ve normalizasyonu da bu örneklerle örtüşmektedir. İçinde değerli bilgi arayacağınız veri yığınınız kullanıma hazır hale getirildiğinde artık arama işine başlayabilirsiniz demektir.
Peki, nedir bu, tüm veriler normal esprisi? Bir ev inşa edeceğimizi hayal edelim. İnşaat için birçok malzeme önümüzde duruyor. Gerçek hayatta böyle olmasa da veri madenciliğinde bu malzemeler (veriler) üst üste yığılmış olarak karşımıza çıkar aslında. Birbirleriyle ilişkili olma potansiyeli olan farklı kaynaklardan toplanmış verileri sonuç üretmek üzere bir araya getiririz. Örnekten çok uzaklaşmadan ev hayalimize geri dönelim. Keresteler, kiremitler, yalıtım malzemeleri, cam ve beton bloklar ve daha niceleri. Hedefimizi biliyoruz malzememiz önümüzde. Eğer bir mimarımız varsa, evimizin planı da hazır inşa edilmeyi bekliyor demektir.
Biraz ileri saralım. Diyelim ki temel atıldı döşemeye geçildi. Zemini oluştururken döşeme tahtaları yığınına gider ve yığından sırayla birer tahta alıp yan yana dizmeye başlayabiliriz. İşimiz bittiğinde güzel bir iş çıkmış olması için şanslı olmamız gerekir. Uzunlukları ve genişlikleri farklı olan malzemelerle ezbere ortaya konulan bir döşeme, sadece macera severleri memnun edecektir. Tüm döşeme tahtalarının en boy ölçülerinin aynı veya uyumlu olması arzu edilen bir döşemeyi karşımıza serecektir.
Sanırım normalizasyon ve önişleme kavramları şimdi biraz daha yerli yerine oturmuştur. Önişleme dediğimiz bu sürecin adımlarını yukarıdaki örnekle pekiştirelim. Eğer döşeme tahtaları arasında çatlak, rengi bozuk ve hatta tahta bile olmayan malzemeler varsa bunların ayıklanıp atılması iyi bir sonuç için kaçınılmazdır. Verilerimizi oluşturan kayıtlar üzerinde gerçekleştirdiğimiz bu işleme veri temizleme denmektedir. Bu işlemde, gözümüze çarpan ayrık malzemeyi (veriyi) atmak, iyi bir usta işi değildir. Pürüzlü malzemeler zımparalanabilir, çatlaklar tamir edilip değerlendirilebilir. Unutmamak gerekir ki yığınla olsa da her veri bizim için değerlidir.
Verinin dönüştürülmesi de ön işlemede bizi hedefimize taşıyan adımlardan biridir. Diyelim ki o yığınla malzemeniz arasında köşebendiniz çıkmadı ya da tozluklar döşemenizle aynı renkte değil. Ya o kadar malzemenin varlığına rağmen işi bırakıp yeniden alışverişe çıkacaksınız ya da elinizdeki uyumsuz malzemeyle sürekli gözünüze batabilecek bir sonuca ilerleyeceksiniz. Aslında, ustanın çözümü, bu ikisinden farklı olacaktır. Usta, eldeki döşeme malzemesini ihtiyaca göre köşebent veya tozluklara dönüştürebilecektir.
Bir başka açıdan dönüşüm, yığınla duran ahşap malzemenin gruplanarak döşeme, tavan ve mobilya olarak gruplanması olarak gerçekleştirilir. Hızlıca yapılan bu gruplama, hangi malzemeyi nerede kullanacağınızı kolaylaştırır. Bu aşamadan sonra döşeme yaparken çatı malzemeleriyle uğraşmazsınız. Eğer yapboz yaparken parçaları renk veya şekillerine göre ayırıp sonra çözüme geçiyorsanız veri dönüşümü konusunda adım atıyorsunuz demektir. Desenli karoların döşenmesi de yapboz gibidir aslında.
Öznitelik seçimine tam da bu örnekle bir giriş yapabiliriz. Probleminiz ortadaki o üç kenarlı parça ise, üç kenarlı olma özniteliğine sahip karolar (veriler) arasında çözümü aramanız akılcı bir yaklaşımdır. Sonra komşu renklerin uyumluluğuna bakarsınız. Bir kenarı mavi bir kenarı beyaz olma özniteliği olanlar da çözüm kümenize dâhil olur. Sizi sonuca götüren son öznitelikse çizgili karolar olabilir. Seçtiğiniz bu üç öznitelik, bu problemle karşılaştığınızda sizi, uygun olan karolara hızlıca taşıyacaktır. Eğer mermer döşeme yapıyorsanız damarları denk getirmeniz, renk uyumunuz sağlamanız daha zordur. Öznitelik seçiminin yapboz tecrübenizi aşacağı bu durumda, işi uzmanına bırakırsanız sonuçtan memnun kalacağınız açıktır.
Özetle, verinin işlenebilir hale getirilmesi, belirlenen aralıklarca ifade edilerek, veri madenciliği algoritmasının etkinliği ve performansının artırılması ve istenilen analiz sonucuna ulaşılması için yapılan ön işleme normalizasyon diyebiliriz. Bilinen o ki, özetler, kimi zaman asıl işi yansıtmak için yetersiz kalır. Konusunda uzman aramak için madencilik yapmanıza gerek yok. TechSiN Bilişim Çözümleri, veri madenciliği ürün ve çözümleri ile size aradığınızdan fazlasını sunar. Ne de olsa TechSiN, “başarınızın bilişim ortağı”dır. Alanında tecrübeli firmamızla iletişim için http://www.techsin.com.tr/bize-ulasin/ .
Yazının başındaki hayalinizdeki eve gelince; TechSiN olarak henüz inşaat sektöründe yokuz ama uzmanlığımızla sizi iş hedefinize ulaştırdığımızda zaten hayalleriniz o evin ötesine geçecektir. Hedeflerinizi gerçekleştirebilecek misiniz? Cevabımız: TechSiN ile tüm veriler normal.