Mar 5, 20214 min read

Od olmayan yerdən tüstü çıxmaz

- Cinayət vaxtı harada idiniz?

+ Xətti cəbr öyrənirdim.

- Cinayət vaxtını haradan bilirsiniz?

+ Mən həmişə xətti cəbr öyrənirəm.

Əsərlərini və özünü çox sevdiyim Cəlil Məmmədquluzadənin "Təzə xəbər" deyə bir hekayəsi var: baş ver(məy)ən hadisəni yanlış anlayan bir insan onu başqa birinə danışır və o da başqa birinə deyir. Hər dəfə də hadisə növbəti şəxsə daha şişirdilmiş formada çatır və heç kəs hadisənin doğruluğu sorğulamır. Məqaləyə adını verdiyim atalar sözündən dolayı. Amma biz sizinlə həm bu atalar sözünü, həm də əlimizdəki məlumatın doğruluğunu sorğulayacağıq.

Bakalavr təhsilinin son ilində Gömrük dərsi keçəndə belə bir maraqlı fakt öyrənmişdim:

Əgər şəxs şübhəli görünürsə, onu saxlayıb qəsdən sorğu prosesini uzadırlar. Ona çox sadə, ancaq bezdirici suallar verillər. Burada bir nəfər sual soruşur, digər əməkdaş isə bir az aralıda başqa işlə məşğul olurmuş kimi dayanıb müşahidə edir. Əgər şəxs, həqiqətən də, sərhəddən daşınması, satışı, idxalı qadağan edilmiş, zərərli və təhlükəli əşya keçirirsə, o zaman lazımından artıq əsəbləşməyə və emosional reaksiyalar verməyə başlayır. Belə davranan şəxs şübhəli şəxs hesab olunur. Yəni P(Şəxs=Cinayətkar/Reaksiya=Emosional) ehtimalı yuxarı olur. Bir növ deyirlər ki, "soğan yeməmisən, için niyə göynəyir?!" Lakin bu o demək deyil ki, bütün emosional şəxslər cinayətkardır; bəzi şəxslərin davranışları onların nevrotik və ya digər sağlamlıq problemləri, əhvalları və ilk dəfə sayəhət etmələri ilə də bağlı ola bilər.

Belə bir məsəl var, deyir "od olmayan yerdən tüstü çıxmaz". Yəni əgər tüstü görürəmsə, deməli, od yanır. Görəsən, mən bu fikrimdə nə qədər haqlıyam?

Deyək ki, mən bir yanğın detektoru hazırlayıram. Belə ki, bu detektor yanğın hallarını maksimum doğru tapmalıdır və yanlış yanğın siqnalı verib təlaş yaratmamalıdır. Yəni detektor məni nə təhlükə qarşısında qoymamalı, nə də yersiz narahat etməməlidir.

Burada detektorun doğru xəbərdarlıq verə bildiyi yanğın hadisələri "True Positive" yəni həqiqi müsbət nəticədir. Yanğın var (hadisə müsbətdir) və detektor onu doğru müəyyən etdi (nəticə doğrudur).

Yanğın olmadığı halda siqnal verilməsi "False Positive"-dir. Yanğın yoxdur, ancaq detektor yanlışlıqla müsbət siqnal verir. Qeyd edim ki, burada müsbət yaxşı demək deyil, hadisənin baş vermiş olması deməkdir.

Yanğın olmadığı halda detektorun siqnal verməməsi "True Negative"-dir. Heç bir hadisə baş verməyib və detektor da vəziyyətə müvafiq olaraq siqnal vermir.

Yanğın olduğu halda siqnal verməməsi isə (bu ən təhlükəli vəziyyətdir) "False Negative"-dir. Hadisə baş verir, ancaq detektor bunu görə bilmir.

Bu 4 halı aşağıdakı cədvəl şəklində göstəririk.

Yadınızdadırsa, sizinlə 1-ci və 2-ci növ xətalardan danışmışdıq. 1-ci növ xəta olmayan bir şeyin olduğuna inanmaqdır, 2-ci növ xəta isə var olan bir şeyin olduğuna inanmamaqdır (yoxluğuna inanmaq deyil). Və qeyd etmişdik ki, 1-ci növ xəta daha təhlükəlidir, çünki olmayan bir şeyə var deyib, ona inanmağa davam edirik və yenidən araşdırma aparmırıq. 2-ci növ xətada isə tapana qədər araşdırma davam edir. Lakin bu müqayisə vəziyyətdən asılı olaraq dəyişir. Yanğın, bəzi sağlamlıq problemləri, qəzalar və s. kimi insan həyatı ilə bağlı məsələlərdə çox zaman 1-ci növ xəta daha etibarlıdır. Çünki mən yanlışlıqla təşvişə düşsəm də, nəticədə tədbir əldən verməyib özümü sığortalayacam (yanğınsöndürənləri çağıracam, vitamin qəbul edəcəm, evdə qalacam və s.) 2-ci növ xətada isə məndə arxayınlıq yaranacaq və bəla məni hazırlıqsız vəziyyətdə yaxalayacaq. Digər halda isə, detektor yanlış siqnal versə belə, problemi tapana qədər hər yeri axtaracam. Nəticədə həyati təhlükə ilə qarşı-qarşıya qalmayacam.

Belə bir detektor hazırlamaq üçün onu proqramlaşdırmalı (Data Science dili ilə desək, "train" etməli) və sonda sınamalıyam (test etməliyəm).

Burada model bizim ona verdiyimiz data ilə prior ehtimalı posteriora çevirir. Yəni əvvəl onun üçün yanğın olub, olmaması 50% idi. İndi isə onun öyrənmək üçün datası var. Həmin data əsasında Bayes teoreminə görə yeni bir nəticə əldə olunur ( P(Hadisənin baş vermə ehtimalı | Data verildiyi halda) ). Test zamanı yuxarıdakı matrisə bənzər bir matris qururuq. Və orada TP, TN, FP, FN hallarının saylarını qeyd edirik. Bu saylar bizim modelin nə qədər doğru proqnoz verdiyini göstərir. Belə matris "confusion matrix" adlanır.

Deyək ki bizim model yanğın hallarının 80%-ni aşkar edir. İlk baxışdan nəticə pis deyil. Lakin cümləyə bir daha fikir verəndə görürük ki, mən ancaq yanğın olan hallarının 80%-ni tapıram. Bəs yanğın olmayan zaman? Bəlkə, bizim detektor, yanğın olmayan hallarda belə siqnalizasiyanı tez-tez işə salacaq və əlavə narahatçılıq yaradacaq?

Burada 80% - "sensitivity rate" (həssaslıq dərəcəsi) adlanır: doğru təxmin edilən müsbət halların həqiqi müsbət hallara nisbəti (True Positive/Actual Positive). Yəni bizim model yanğın hallarına qarşı 80% həssaslıq göstərir və yanğın baş verən halların 80%-ni tapır. Bu sadəcə yanğının baş veridiyi hallar üçündür. Bunu bizim modelin əsas dəyəri kimi götürmək "base rate fallacy" - əsas dərəcə yanılqısı-na gətirib çıxarır.

"Base rate" (əsas dərəcə) - yanğının neçə faiz hallarda baş verməsi (yanğın hadisəsinin sayının ümumi vaxta nisbəti, məsələn 5 ildə 1 dəfə)

Biz isə gərək həm də "specifisity rate" - xüsusilik dərəcəsini bilək. Xüsusilik dərəcəsi isə yanğın olmayan halların detektor tərəfindən düzgün müəyyən olunmasıdır, yəni detektor yanğın olmayan zamanları nə qədər doğru tapa bilir. Bu isə doğru təxmin olunan mənfi halların bütün həqiqi mənfi hallara olan nisbətidir (True Negative/Actual Negative).

Bəs modelimizi necə qiymətləndirə bilərik?

Modeli doğru qiymətləndirmək üçün aşağıdakı nisbətlərdən istifadə edirik. Növbəti bloqlarda bunlarla bağlı daha detallı danışacağıq. Mövzunun uzunluğu sizi qorxutmasın, Bayes teoremi uzun, detallı, amma bir o qədər də sadə və öyrənməyə dəyər mövzudur. Maşın Öyrənməsinin də əsasıdır.

"Confusion Matrix"-də TP/(TP + FP) nisbəti precision adlanır. Yəni yanğın zamanı siqnalın işə düşdüyü halların (True Positives) siqnalın işə düşdüyü bütün zamanlara (all Predicted Positives) nisbəti (siqnal hallarının neçə faizi doğru zamanda baş verir).
TP/(TP + FN) nisbəti recall adlanır. Yəni siqnalın işə düşdüyü yanğın hallarının (True Positives) bütün yanğın hallarına (all Actual Positives) nisbəti (yanğın zamanı neçə faiz hallarda siqnalizasiya işə düşür). Recall və sensitivity eyni anlayışdır.
Bundan əlavə accuracy rate (dəqiqlik faizi) var. O da (TP + TN)/(TP + FP + TN + FN) nisbətinə bərabərdir. Yəni siqnalizasiyanın bütün doğru işlədiyi zamanların (True Predictions) (yanğın zamanı işə düşüb, yanğın olmayanda işə düşməməsi) bütün hallara (all Predictions) nisbətidir.

Bu 3 nisbətin modelin qiymətləndirilməsində çox önəmi var. Bunu da qeyd etmək lazımdır ki, əslində istənilən qiymətləndirmə üçün mütləq dəyərlərdən daha çox nisbi dəyərlər önəm daşıyır. Məsələn, sizin imatahandan aldığınız mütləq qiymət (deyək ki, 85 bal) biz maksimum balı bilmədikdə əhəmiyyətsizdir. Amma 85/100 dedikdə, bu qiymət əhəmiyyətli olur. Modelin qiymətləndirilməsi də elə eyni sadə məntiqə dayanır.

Ümid edirəm, bu bloqda Bayes teoremi haqqında görüşünüz bir az da genişlənmiş oldu. Bir sonrakı postda da bu mövzuya davam edərək daha detallı öyrənməyə çalışacağıq.

Keçmiş od çərşənbəniz mübarək. Hər tüstü çıxan yerdə od olmaya da bilər, lakin siz yenə də bu çərşənbələrdə tüstüyə qarşı ehtiyatlı davranıb arzuolunmaz hallardan özünüzü qoruyun. Xəbərlərin doğruluğunu, modellərin dəqiqliyini ölçmədən də nəbadə qərar verəsiniz!

Xudahafiz!

Od olmayan yerdən tüstü çıxmaz

Recent Posts

Comments

Digər