כריית מידע (Data Mining) הוא כלי מתקדם שתפקידו להצליב נתונים במטרה לאתר מגמות ולהתחקות אחר דפוסים המתקיימים בין אינסוף רשומות במסדי הנתונים.
עסקים רבים בישראל מבססים את קבלת ההחלטות שלהם על ידע מאורגן ומנותח ונעזרים במערכות בינה מלאכותית ואלגוריתמים מתמטיים, אשר מהווים כלי מרכזי בתהליך קבלת ההחלטות.
שימושים של כריית מידע
נכנסתם לאתר אינטרנט? חיפשתם בגוגל מוצר או שירות מסוים? מבלי ששמתם לב החל להתרחש תהליך של איסוף וכריית מידע אודותיכם. התהליך מתנהל “מאחורי הקלעים” כלומר בשרתי הנתונים של האתרים השונים וכולל איסוף מידע שיווקי אודותיכם כדי לסייע למפרסם להציע לכם את המוצר המתאים ביותר לצרכים ונוסף לכך מתחרי המפרסם יוכלו להציע לכם מוצרים מתחרים או משלימים למה שדרוש לכם על סמך שאילתת החיפוש שהקלדתם.
שימוש נוסף לכריית נתונים נעשה במערכות פיננסיות כמו חברות ביטוח ובנקים, שבאמצעות אלגוריתמים מתמטיים מזהים חריגות כספיות והונאות עסקיות. אנליסט נתונים הוא הגורם שאחראי לקשר בין תהליכי כריית הנתונים לבין המידע שלבסוף יופיע במערכות הבינה המלאכותית בארגון.
כיצד נתונים הופכים לידע?
אנליסט הנתונים נעזר במספר מודלים כדי לנתח ולעבד את המידע בבסיס הנתונים:
- מודלים תיאורטיים – אלו מודלים המבוססים על שיטת ניתוח האשכולות באמצעות אלגוריתם מתמטי. תוצאות הניתוח נוגעות לאירועי העבר הרחוק והקרוב ומנסות לחזות אירועים עתידיים על סמך אותם נתונים היסטוריים. המידע מעובד באמצעות הצלבת נתונים, ניהול טבלאות ובחינת תדירות של אירועים.
- מודלים לחיזוי- מבוססים על סיווגים, ניתוחי סדרות זמן וחישובי רגרסיה של אירועים שעשויים להתרחש בעתיד או לבחינת הסיבות שעשוית להביא להתרחשות של אירועים מסוימים בעתיד. גם כאן האנליסט מתמקד במציאת דפוסים ומגמות בדאטה.
- מודלים לכריית דפוסים- בדומה למודלים לחיזוי גם כאן ההתמקדות היא באיתור דפוסים שהם תוצר של חוקיות או חזרתיות מסוימת. האנליסט נעזר במודל זה כדי לאתר שגיאות, כשלים ופגמים.
- מודלים לזיהוי אנומליה- מודלים אלו נועדו לטפל בכל תוצאה חריגה שלא ניתן לשייך לאשכול, תבנית, טבלה או רשימה. בדומה למודל כריית הדפוסים גם מודל זה נועד לסייע לאתר פגמים, כשלים, תקלות וחריגות מתקינה מסוימת ( למזל ככלי לזיהוי מחלות).
כיצד ניתן להבטיח שהמידע המגיע למערכות ניהול הנתונים נכון ועדכני?
בימנו מערכות לניהול נתונים כדוגמת מערכות בינה מלאכותית מהוות כלי מרכזי בתהליכי קבלת החלטות בארגונים. מערכות אלו נחלקות לשני חלקים מרכזיים:
1. הצד הסמוי – הוא בסיס המידע עליו מבוססת המערכת
2.הצד הגלוי – הוא סביבת העבודה של המשתמש (“לוח מחוונים”) האפליקציה עצמה, כלומר מערכת המידע המציגה את הנתונים באופן חזותי נגיש וקל לקריאה.
בצד הסמוי מבוצע תהליך כריית המידע, וכאמור תהליך זה כולל מציאה של דפוסים, תבניות ותוצאות חריגות בתוך מסדי נתונים רחבי היקף. תהליך כריית המידע כולל טיפול בבעיות סיווג באמצעות “עצי החלטה”, “שיטת השכן הקרוב”, “רשת עצבית מלאכותית” וסיווג בייס נאיבי” אלו שיטות סיווג נפוצות, שמטרתן לסייע בניבוי של אירועים עתידיים על סמך נתונים.
כדי לאחזר מידע במהירות מבוצע תהליך נוסף הנקרא ניתוח אשכולות הכולל קיבוץ של עצמים בדאטה בעלי מאפיינים דומים או קרובים. אמינות המידע מתקבלת באמצעות ניתוחי רגרסיה שכל מטרתם היא לצמצם שגיאות ניבוי.
בשלב הבא מבוצע תהליך של ניתוח מידע על סמך אסוציאציות, כלומר על סמך מציאה של הקשרים, חזרתיות או חוקיות, שתסייע למערכת המידע (בצד הגלוי, כלומר בפלטפורמה או באפליקציה) להמליץ על פעולות מסוימות שנובעות מאותה חוקיות. כך למשל אם מנהל המכירות מעוניין להגדיל את המכירות בחנות הוא יוכל להיעזר בנתונים אלו כדי להמליץ על מוצרים קרובים, משלימים או על מוצרים שהלקוח רוכש בדרך כלל אך טרם הוסיף אותם לעגלת הקניות.