ניתוח נכון של כמות עצומה של נתונים בזמן אמת מבדיל היום בין ארגונים מצליחים לבין חברות מדשדשות וכושלות. חשבו כמה מידע אוסף הטלפון הנייד שלכם בכל שעה – נתוני מיקום, שימוש ברשת, שיחות מוקלטות, הודעות קוליות וקבצי וידאו וטקסט. בחלק מהארגונים הגדולים יותר נאספת כמות כפולה ומכופלת של רשומות על פעולת כל משתמש או עובד בארגון. חברות מסחריות שלמדו לנתב את המידע הזה לטובתן מסוגלות להשפיע על תוצאות הבחירות ברחבי העולם, להתאים מוצר ללקוח ככפפה ליד או לנבא משבר בבורסה.
הכירו את התרומה העצומה שיש ל-Data Engineering בעולם המודרני.
עודף מידע: כיצד שולפים את המידע הנכון ומנתחים אותו?
בעבר, הבעיה העיקרית של ארגונים הייתה חוסר היכולת לקבל ולשמור את המידע. בימים בהם כרטסת לקוחות ממוחשבת הייתה נחשבת לשיא הטכנולוגיה כמות המידע המצטבר הייתה נמוכה. כיום, יש הטוענים כי כ-90% מהמידע נוצר בשנתיים האחרונות בלבד. זו אחת הסיבות, ככל הנראה, ששפות המאפשרות כתיבת קוד מהיר לטיפול בכמויות מידע אדירות – כמו Python לשליפת מידע – חוות תחייה מחודשת.
למידע הזה אין כל ערך אם לא מסוגלים להעבירו לסטנדרט אחיד ולקבל ממנו תובנות. מהנדס נתונים (Data Engineer) הופך נתונים בכמויות גדולות ובפורמטים שונים, לפורמט שימושי לניתוח וכאן טמונה גדולתו. הוא מבצע אפיון של נתוני הגלם שניתן לאסוף בארגון – חלקם נתונים לא-מובנים (Unstructured Data) – מתכנן ומקים את פלטפורמות אחסון ועיבוד הנתונים ובמידת הצורך גם מטייב ומנקה את הנתונים משגויים או כפולים. בשלב הבא המידע עובר עיבוד ונשמר בשתי צורות – המידע הגולמי והמידע המעובד לניתוח ולדוחות באמצעות טכנולוגיות Data Analytics.
שיפור יעילות איסוף המידע, עיבודו ושמירתו
כיום, המידע מגיע בדרך כלל מיותר ממקור אחד. לדוגמה: בעיבוד מידע על לקוחות, אנו אוספים נתונים על לקוחות מתוך הארגון מתוכנות פנימיות, מצליבים אותו עם מידע המופיע ברשת ומוסיפים נתוני מיקום ולעתים גם מאפיינים דמוגרפיים נוספים.
בעבר, מסדי הנתונים היו נבנים מטבלאות מוגדרות כאשר מבנה הנתונים היה מתוכנן היטב וסגור. כיום, בשל העובדה כי מדובר במקורות רבים, לא ידוע מראש באיזה פורמט תגיע כל רשומה. לכן, השיטה המקובלת לעיבוד המידע כיום היא Data Pipeline. על מנת לעבוד ביעילות המידע מחולק ליחידות קטנות, הנשמרות בפורמט גמיש ב-Data Lake. הנתונים נאספים ומעובדים באמצעות טכנולוגיות ייעודיות לעיבוד מידע, ולאחר מכן נשמרים ב-Data Platform מתאים.
מעבר למחשוב ענן המאפשר לשמר כמויות גדולות יותר של מידע
שינוי נוסף שהתרחש בתחום עיבוד ואחסון המידע הוא המעבר לענן (Cloud). למידע המעובד בצורות שונות יש חיסרון אחד בולט – הוא דורש שטח אחסון הולך וגדל. אם עד כה ארגונים היו זקוקים לשרתים בנפח עצום, היום כל איסוף המידע וחלק מהתהליכים לעיבודו אינם מתבצעים על גבי שרתים מקומיים אלא בשרתי ענן. העוצמה, המהירות, יכולת הגידול ואפילו יכולת השיתוף של מעבדים עם יכולות גבוהות על פי דרישה מאפשרים הן לארגונים גדולים והן לארגונים בסדר גודל קטן עד בינוני גישה ליכולות שעד כה היו שמורות לענקיות הטכנולוגיה.
לסיכום, ניתן להניח כי בעתיד תפקידם של מהנדסי הנתונים יהיה משמעותי אף יותר בכל ארגון, מכיוון שחברות שלא ישענו על המידע שצברו – יאבדו יתרון אסטרטגי משמעותי בנישה בה הן פועלות, ובסופו של דבר ייכשלו בתחרות.