כמויות המידע שמייצרת ואוגרת האנושות הולכות וגדלות בקצבים מסחררים, בעיקר בארגונים מוטי נתונים (Data-Driven). על מנת לתת מענה לכמויות הללו, טכנולוגיות האחסון הולכות ומשתכללות, אולם האחסון בלבד לא יעניק ערך אמיתי לארגונים שלא ישכילו לעבד אותו, לנתח אותו, להפיק ממנו תובנות ולנסות לחזות על פיו מגמות עתידיות. ההתפתחויות בטכנולוגיית המידע המאפיינות את העידן הנוכחי, מאפשרות להשתמש בנתונים המגיעים ממקורות שונים בפורמטים שונים – מרשומות ממערכת ה-CRM הארגונית ועד ציוצים בטוויטר. נתונים אלה – המכונים Big Data – מאפשרים לחברות וארגונים בתחומי פעילות שונים לשפר את תהליכי קבלת ההחלטות ולטייב את התהליכים העסקיים שלהם. היכולת להפיק ידע בעל ערך מנתונים הפכה בשנים האחרונות למשאב ארגוני קריטי אשר ביכולתו לשמש מכפיל כוח בהשגת מטרות עסקיות.
למרות שהעלויות הנדרשות לצורך טיפול בנתונים ובניתוח שלהם פחתו משמעותית בשנים האחרונות, עדיין מדובר בתחום הדורש משאבים הן ברמת ההשקעה הכספית והן בהשקעת משאבים ניהוליים. מצד שני, התפתחות התחום הביאה ארגונים רבים לפתח מוצרים מבוססי נתונים (Data Products), המעניקים להם יתרון תחרותי. עיבוד וניתוח נכון של נתונים משפיעים על יצירת תובנות ארגוניות ברמות שונות ויש בכוחם לחולל שינויים התנהגותיים של ממש בתחומים שונים ולהניע שיפורים בתהליכים עסקיים.
בדומה לתחומים טכנולוגיים רבים, גם ההתפתחויות אותן עבר תחום הטיפול בנתונים הביאו ליצירת לא מעט הגדרות ומושגים, שתפסו את מקומם בשפה המקצועית. כמה מהמושגים הבולטים הם Data Mining, Data Science ו- Data Analysis. מקורו של ריבוי המונחים והמושגים נובע מסיבות עסקיות יותר מאשר מסיבות טכנולוגיות, והוא נוצר לא על פי התכונות והיכולות של הפתרונות, אלא על פי סוגי הבעיות העסקיות העשויות לקבל מענה אנליטי מניתוח נתונים באשר הוא. על מנת לנסות לפזר מעט את עננת ה-Hype סביב המושגים הללו, ננסה לעשות בהם מעט סדר:
Data Analysis – זוהי למעשה הגישה המסורתית לניתוח נתונים, המאפשרת ריכוז נתונים באופן המאפשר קבלת החלטות והפקת תובנות ברמת עומק בסיסית. הצגה של אירועים על פי סדר התרחשותם למשל, מאפשרת להגיע לתובנות לגבי התנהגות משתמשים על ציר הזמן. תהליך של Data Analysis מתבצע על פי רוב באמצעות כלי ויזואליזציה ואנליזה (כלי BI) וגם באמצעות שאילתות SQL.
Data Mining – מושג זה קיבל משנה תוקף כאשר ארגונים החלו לנתח נתונים היסטוריים, על מנת לדלות מהם תובנות, אנומליות וקורלציות, שלא ניתן היה לגלות באופן אינטואיטיבי.בשונה משיטות קלאסיות של ניתוח נתונים, אשר נועדו לצורך הפרכה או אישוש של היפותזות, מודלים של כריית נתונים (Data Mining) מאפשרים שימוש ביכולת ניתוח סטטיסטית מבוססת גילוי (discovery) במודלים מבוססי ניבוי (prediction) או במודלים תיאוריים (descriptive) כדוגמת Clustering.
Data Science – תחום המשלב בין יכולות אנליטיות מבוססות מודלים סטטיסטיים, מודלים מתמטיים, יכולות תכנות ויכולת טיפול בנתונים מובנים ולא-מובנים במטרה לפתח מוצרים ושירותים מבוססי נתונים, לשימוש תוך ארגוני או עבור לקוחות הארגון. Data Science עושה שימוש ב-Data Mining כרכיב בתהליך אינטגרטיבי ורב-שלבי של טיפול בנתונים הכולל בין השאר: הבנת הבעיה העסקית, הגדרת מרחב הנתונים הנדרש, טיפול מקדמי בנתונים, בחינת אופי וטיב הנתונים, הרצת מודל אחד או יותר של כריית נתונים, בחינת התוצאות המתקבלות ויישום הפתרון בפועל.