כולם מדברים על Big Data - הצורך ההולך וגובר לנתח כמויות מידע עצומות, כאלה שמסדי נתונים רגילים לא מסוגלים לטפל בהן בצורה יעילה.
עיקר הדיון היום הוא בהקשר התשתיתי, כלומר מוצעים פתרונות שונים בעלי תשתית חזקה או מתוחכמת יותר, כדי להצליח לנהל את המידע הרב ולתשאל אותו: שימוש במחשבי-על חזקים במיוחד; אחסון המידע In-Memory כדי לקצר את זמני השאילתות; דור חדש של מסדי-נתונים הבנויים בארכיטקטורה המתאימה למידע רב; ביזור פעולות העיבוד (Map-Reduce), ועוד.
אולם נראה שפתרון תשתיתי לבד איננו מספיק, וזאת משתי סיבות:
ראשית, נפתח בעצם "מירוץ חימוש", תחרות בין קצב יצירת הנתונים ובין ההתקדמות הטכנולוגית שמנסה לתמוך בו. לא בטוח שתמיד נוכל להדביק את הקצב הזה. המודעות לצורך ב-Big Data היא יחסית חדשה, ואפשר לומר שהשוק התעורר באיחור, ומנסה בכל כוחו לצמצם את הפער בין הרצוי למצוי. מספיק לראות כמה שנים לא הייתה כמעט שום התקדמות משמעותית במסדי הנתונים בתחום זה.
שנית, כל הפתרונות הללו מנסים לתת מענה לאחסון המידע ולשליפתו, אבל לא פותרים בעיה אחרת. יש לזכור ש-Big Data מתייחס לא רק לכמות הרשומות, אלא גם לעושר המידע, כלומר הרבה יותר סוגי מידע, אינדיקטורים, דגלים, מאפיינים. אם מאחסנים במסד הנתונים (או במחסן הנתונים) את כל המידע המפורט, למנתח / מפתח ה-BI יהיה קשה לנהל ולהבין את המידע, לשלוט בו, ולפתח דוחות על גביו. זה לא משנה כמה אנשים מונה צוות ה-BI - מישהו צריך לראות את כל התמונה, ולכן אסור שהיא תהיה גדולה מדיי.
לדוגמה, Big Data בחברה שמפעילה אתר אינטרנט גדול. החברה לא רוצה להסתפק במידע בסיסי כמו מי גלש לאתר ומתי, אלא רוצה לבדוק עשרות ואפילו מאות פרמטרים שונים. כמות השדות הזאת קשה מדיי לעיכול. אין הרבה ערך ביצירת דוח ארוך שמראה סטטיסטיקות על כל פרמטר ופרמטר - לא כי הן לא חשובות, אלא במקרה כזה "מרוב עצים לא רואים את היער", קשה קבל תובנות מדוח כזה.
למעשה, בהרבה מקרים Big Data מייצג בעיקר את היקף הנתונים שבהם יש להתחשב ושאותם צריך לשקלל, ולאו דווקא את היקף הנתונים הנדרש להצגה בדוח הסופי. לכן מה שנדרש הוא להגדיר לוגיקה עסקית על בסיס הנתונים הגולמיים. האנליסטים ומנתחי ה-BI צריכים לשבת יחד ולהגדיר עולם נתונים מופשט יותר, אשר יאפשר לוותר על אחסון הנתונים הגולמיים, מבלי לאבד מידע עסקי. כך למשל ניתן להגדיר שמספר פרמטרים שונים של גלישה באתר, אשר מייצגים את אותו היבט, יכולים להיות ממופים לפרמטר מרכזי אחד, אשר רק הוא יישמר. אפשר כמובן להגדיר לוגיקות השונות מאגרגציה, משרשור טקסט וממוצע משוקלל, ועד אלגוריתמים מורכבים.
הלוגיקה יכולה להיות מופעלת על כל נתון מיד כאשר הוא מגיע, או לחלופין על Bulks של נתונים שיעובדו מפעם לפעם. לא יהיה צורך לאגור את כל הנתונים הגולמיים.
כמובן, בעצם המתודה אין חידוש. האגרגציה (כמו גם מניפולציות אחרות) היא חלק מרכזי מתהליכי ETL באשר הם. החידוש הנדרש הוא שכרגיל לא נדרשנו לוותר על שום רזולוציה של הנתונים. הנתונים הגולמיים נשמרו במסד-הנתונים התפעולי או במחסני נתונים, והנתונים המעובדים (והמסוכמים) הועתקו למסד-נתונים יעודי ל-BI. אך בעידן ה-Big Data, יתכן שעלינו לבצע את העיבוד כבר בשלב השמירה הראשונית של הנתונים.
נכון, זה נוגד את התפיסה הקלאסית של "יש לאגור את כל המידע כפי שהוא, לעולם אי אפשר לדעת מה תרצה לעשות אתו". סביר להניח שחלק מהחברות לא יוותרו על תפיסה זו, בעיקר כאלה שהן עתירות במשאבים, או כאלה שצריכות ניתוחים מורכבים ומתקדמים במיוחד (למשל בנקים שמנסים לגלות הונאות ורוצים לנתח כל בדל מידע). אבל אולי שאר החברות יכולות להסתפק במידע המשוקלל והמתומצת.
אין ספק שזה נותן הרבה יותר משקל להגדרה נבונה ונכונה של הלוגיקה העסקית, שהרי לא ניתן יהיה לשחזר את הנתונים הגולמיים שלא נשמרו.
ואיך זה קשור לקליקוויו?
קודם כל, זה לא בהכרח קשור...
ובכל זאת, ניתן להיעזר ביכולת של קליקוויו לשמור קבצי QVD, ולהשתמש בקבצים אלו כבסיס-נתונים המתעדכן באופן אינקרמנטלי, וזאת ע"י פיתוח מודל ייעודי, אשר בכל ריצה יבדוק את עדכניות ה-QVD, ויוסיף אליו רק את הנתונים שטרם הוכנסו אליו, תוך כדי ביצוע עיבוד הנתונים. אני פיתחתי מודל מעין זה על בסיס טבלת לוג ענקית אשר בגלל גודלה, נשמרת בה רק ההיסטוריה האחרונה. בזכות מודל הקליקוויו אנו יכולים כעת לצבור ולתחקר מידע היסטורי זמן רב לאחור.