İstər inanın, istər yox fərd olaraq hər birimizin datanın müxtəlif şəkildəyişmələriyik. Günlərin bir günündə, təxminən 1960-cı illərin soyuq bir qış gecəsində data rüzgarı əsməyə başladı. Külək getdikcə şiddətlənir və biznesin bütün sferalarına nüfuz edirdi. Amma bu başqa küləklərdən deyildi. O toxunduğu hər şeyi mükəmməlləşdirirdi.
Bu gün Data Analizi, olduqca mürəkkəb sahə olaraq qəbul edilir ki, bütün bunlar önyarqıdan başqa birşey deyil. Prosesi addımlara bölərək real Data Analazinin necə olduğunu sizə təqdim edirik. Sadəcə 5 addımda, Data Analizi edin:
- Datanın əldə olunması
- Datanın təmizlənməsi
- Datadakı ümumi tendensiyanın araşdırılması
- Proqnoz vermək üçün modelləşdirilmə
- Datanın interpretasiyası və izahı
Bütün sahələrdə olduğu kimi, burada da da ilk etap, biznesin hansı problemi yaşadığını müəyyənləşdirməkdir. Datadan istifadə edərək, problemin həll olunması, nə qədər qənaətlə həll olunacağı, nə qədər qazanc əldə olunacağı kimi detallar işə başlamazdan əvvəl ətraflı düşünülməlidir.
Datanın Toplanması
Data olmadan, təbii olaraq heçbir Data Analitikasından danışmaq olmaz. Burada əsas ehtiyyac, düzgün formatda (.csv, json, xml və s.) datanın qurulmasıdır. Aşağıda verilən tətbiqləri istifadə edərək çox sadə və olduqca tez datanı toplaya bilərsiniz.
Bacarıqlar:
Data Menecmenti: MySQL, PostgresSQL, MongoDB
Əlaqəli databazaların kodlanması
Struktursuz datanın əldə edilməsi: teks, video, audio fayllar
Paylanmış Saxlama (Datanın bir neçə komputerə çıxışının təmin olunması): Hadoops, Apache Spark/Flink
Datanın Təmizlənməsi
Məqsəd:
Datanın yoxlanması: İşləyəcəyiniz bütün verilənləri başa düşün, uyğunsuzluqları, çatışmayan verilənləri yoxlamaqla datanı təmizləyin.
Datanın Təmizlənməsi: Çatışmayan verilənləri ya atın, ya da yeni verilən əlavə edin.
Bacarıqlar:
Programlaşdırma dilləri: Python, R, SAS
Data ilə işləmək üçün tətbiqlər: Python Pandas, R
Prosessin paylanması: Hadoop, Map Reduce / Spark
Araşdırma Xarakterli Data Analizi
Araşdırma xarakterli data analizi, datadakı əsas tendensiyaların ortaya çıxarılmasına yönəldilmişdir. Vizuallaşdırmalardan və statistik testlərdən ibarət olan bu mərhələ datanın gələcək modelləşdirilməsində hansı algoritmlərdən istifadə edəcəyinizi müəyyən edəcək.
Məqsəd:
Datanı vizual ifadə edən nümunələrin qurulması
Statistik əhəmiyyətli (bütün dataya aid olunabilər) xüsusiyyətlərin müəyyən edilməsi
Bacarıqlar:
- Python: Numpy, Matplotlib, Pandas, Scipy kitabxanaları
- R: GGplot2, Dplyr Kitabxanaları(Proqramlaşdırma dillərində kitabxanalar, funksiyaları və kodları həyata keçirmək üçün mövcuddur.)
- Nəticəyönlü Statistika
- Datanın vizual təsviri
Modelləşdirmə (Machine Learning)
Gəldik əsas hissəyə. Statistik cəhətdən məna kəsb edən modellərin qurulması bu addımda izah olunur. Belə ki, problemlərə spesifik alqoritmləri qurmaqla siz proqnozlar verərək, fərqdi qərarlardan riyazi-optimal qərarlara keçirsiniz, həm də olduqca asan bir şəkildə.
Məqsəd:
Köklü Analizlərin Hazırlanması: Proqnoz verici modellərin qurulması
Modellərin qiymətləndirilməsi və dəqiqliyinin artırılması
Bacarıqlar:
- Modelləşdirmə, machine learning: Regressiya, Classifikasiya alqoritmlərinin qurulması
- Modelin dəqiqliyinin qiymətləndirilməsi
- Əsas Modelləşdirmə Kitabxanaları: Python(Sci-kit Learn) / R (CARET, h2o)
İnterpretasiya, İzahlar
Indi isə real hekayələrin zamanı gəldi. Reportlar hazırlanarkən Enşteynin məşhur “Əgər idealarını 6 yaşlı uşağa başa sala bilmirsənsə, deməli heç özün də anlamamısan.” prinsipindən istifadə olunması məsləhət görülür. Şirkətdə bir komanda şəklində çalışdığınız üçün, hər kəs qurulan modellərin əhəmiyyətini anlamalıdır ki, işin qalan hissəsini yerinə yetirsin.
Məqsəd:
Biznesin əsas anlayışlarının kütləyə çatdırılması
Əyani-vizual vasitələrdən istifadə etməklə, kütlənin daha yaxşı anlamasına şəraitin yaradılması
Bacarıqlar:
- Biznes haqqında ümumi məlumat
- Vizuallaşdırma tətbiqləri: Tablaeu, Microsoft Power BI
- Kommunikasiya: Təqdimat, İşgüzar yazı, Report hazırlamaq, İctimai Natiqlik Bacarıqları
Sevinc Hüseynova, banco.az