אחד מהתחומים הטכנולוגיים היותר מרתקים בעולם ה-AI עוסק בניתוח ועיבוד של שפות הדיבור המוכרות לנו ובהפיכתן ליישומים פרקטיים. תחום זה קרוי NLP (Natural Language Processing), והוא טומן בחובו אין-ספור פיתוחים ויכולות. אם גם אתם נתקלתם במונח הזה, הנה כמה עובדות מעניינות שכדאי להכיר:
1 מורכבות ה-NLP
נהוג להתייחס ל-NLP כאל מונח כללי המתייחס במהותו לתהליך אחד – עיבוד שפה אנושית ליכולות טכנולוגיות. עם זאת, ה-NLP מתייחס לשני ענפים: הראשון, המוכר כ-Natural Language Understanding, מתייחס ליכולת הניתוח של טקסט מדובר או כתוב ולהפקת המשמעויות הנובעות ממנו. הענף השני נקרא Natural Language Generation, והוא מתייחס למצב שבו המכונה תוכל לדבר אלינו (לדוגמה: אפליקציית Waze שיודעת לתת לנו הנחיות נסיעה, או מחשב ביתי שמעביר הרצאה בנושא שנגדיר לו וכיו"ב)
נכון להיום הענף הראשון, והבסיסי יותר, הוא הנפוץ יותר ב-NLP, והוא תופס כ-90% מהיישומים, בעוד שהענף השני מהווה רק 10% מעולם ה-NLP.
2 אין שפה אחת
תחום ה-NLP ממחיש יותר מכל דבר אחר את ריבוי השפות הקיימות בעולמנו. מובן שהשפה האנגלית שונה במהותה משפות אחרות (דוגמת עברית), אך גם בתוך אותה שפה ניתן לראות תתי-שפות ושונות שפתית. כך, לדוגמה, השפה המקצועית של רופא שיניים שונה מהשפה המקצועית של רופא העוסק ברפואת חירום, גם אם שניהם גרים באותו מקום ומדברים באותה שפה. למעשה, ביישומי NLP השפה מוגדרת על פי התיוגים התוכניים שלה, ולא על פי הגדרות השפה המוכרות לנו.
3 השפות שזוכות ליתרון
תחום ה-NLP 'מעדיף' שפות מסוימות על פני שפות אחרות. זו לא אפליה על רקע שפתי, כי אם תולדה של הנסיבות הפרקטיות: ככל ששפה תהיה פשוטה יותר מבחינה לשונית ונפוצה יותר מבחינת המשתמשים בה, כך גדלים הסיכויים שייכתבו יישומי NLP בשפה זו. במילים אחרות, מכיוון שיישומים המנתחים שפה אחת אינם מתאימים לשפות אחרות, סביר להניח שארגון ישקיע יותר בשפות הנפוצות והפשוטות יותר לעיבוד. זו הסיבה שיש הרבה יישומים באנגלית, אך מעט מאוד בעברית (הנחשבת מורכבת מבחינה לשונית ולא-שכיחה מבחינת השימוש בה), או בערבית (הדומה במורכבות שלה לעברית, אם כי לה יש 274 מיליון דוברים, לעומת 9 מיליון דוברי עברית בעולם).
4 מחיר הקִדמה
בדרך כלל יהיו פרויקטי NLP יקרים יחסית, וזאת בעיקר בשל שעות העבודה הרבות הנדרשות להשלמת כל פרויקט ועלותם הגבוהה של מומחים ואנשי מקצוע המכירים את התחום לעומק. עם זאת, המציאות מלמדת שהמחיר משתלם. לדוגמה, במשימת זיהוי ישויות (אנשים, מקומות וארגונים) בטקסט, המודלים הקיימים כיום כבר יודעים להגיע לישויות תוך שימוש במספר נמוך של דוגמאות שתויגו על ידי מומחים. אם בעבר נדרשו עשרות אלפי דוגמאות מתויגות כדי לזהות ישויות, כיום הזמן הנדרש כדי להגיע למודל עובד הוא קצר יותר – מה שמצמצם את זמן העבודה של המומחים, ולמעשה מביא לחיסכון בכסף. בנוסף, כיום קיימים יישומים שיכולים להחליף חלק משעות העבודה האנושיות ולייצר תפוקה גבוהה בעלות נמוכה יותר.
5 כשהמחשב מנצח את האדם
כאמור, מחיר ההשקעה הכרוך בפרויקטי NLP משתלם בסופו של יום. לצד יישומי ה-NLP הצצים חדשות לבקרים, ניתן לראות גם את הקפיצה המדהימה של 'יכולות המכונה'. לפני שנתיים – לראשונה – ניצח המחשב את האדם בתחרות שהתמקדה ב… הבנת הנקרא. כן, המחשב 'קרא' טקסט וענה על השאלות טוב יותר מהמתחרה האנושי. כדי שלמחשב יהיו יכולות כאלו, אגב, על המומחים לתייג את המידע הטקסטואלי – קרי לסמן את הטקסטים בהתאם למשמעות שאותה רוצים לחלץ מהטקסט. אפשר לומר כי ככל שתגדל זמינותם של מודלים חזקים ותיעשה עבודת תיוג טובה יותר, ניצחון המחשב על האדם ייהפך ליותר ויותר שכיח.
6 ה-NLP כבר כאן…
יישומי ה-NLP נכנסים יותר ויותר לכל תחום, או כמעט לכל תחום, בחיינו. הנה כמה דוגמאות לשימוש ב-NLP: חברה העוסקת בקידוחי נפט תוכל לזהות מראש תקלות במגדלי הקידוח באמצעות זיהוי שפה מדוברת וטקסטואלית. באותו אופן, בתי חולים יכולים לעבור על רשומות רפואיות המציגות תוצאות ביופסיות – ולחלץ מהן Data Base על סוג הגידול, מיקומו, גודלו וכיו"ב. בעולם השירות ניתן לסווג קריאות המגיעות למוקד הטלפוני ולהפנותן לגורם המטפל הרלוונטי (Robotic Process Automatic), ואילו בעולם המכירות ניתן, באמצעות שיחות עם אנשי מכירות, לזהות מהם המאפיינים של איש מכירות טוב או של שיחת מכירה טובה. דוגמה נוספת היא בעולם ה-Sentiment Analysis – היכולת לזהות את הרגש של הציבור, ולמעשה לעבד שיחות ולקבל מהן תובנות לגבי הלך הרוח לגבי מוצר מסוים, פוליטיקאי המתמודד בבחירות וכיו"ב. ברוב התחומים, יישומי NLP מתפקדים כ'עוזר וירטואלי' – שאינו מחליף את המומחה בתפקידו, אלא מטפל במקרים הפשוטים יותר ומפנה את המקרים המורכבים לטיפול המומחה.
7 …אבל לא בכל מצב
כאמור, עם הזמן ניתן לראות יותר ויותר יישומי NLP המשפיעים על החיים של כולנו במגוון תחומים והיבטים – החל מהמגזר העסקי וכלה בהתנהלות היום-יומית. עם זאת, מכיוון שתחום ה-NLP מבוסס על יכולותיו המתפתחות של המחשב, ומטבע הדברים יש עוד דרך ארוכה עד שהמחשב יוכל להחליף את האדם, יש תחומים שבהם – לפחות נכון לעכשיו – היישומים הללו אינם באים לידי ביטוי, או פחות מתאימים להטמעה. כך, למשל, בעוד שיישומי NLP כבר מוטמעים באפליקציות, בתוכנות ארגוניות, ברשומות רפואיות וכיו"ב, נראה שייקח זמן עד שנראה אותם בתחומים 'קריטיים' כגון בטיחות בטיסה.
8 NLP ברחוב סומסום
אולי זו בדיחה פנימית של מומחי NLP, אולי זו מסורת שהשתרשה עוד מהפרויקט הראשון – כך או כך, פרויקטי NLP נקראים על שם דמויות מסדרת הקאלט שכולנו גדלנו עליה – 'רחוב סומסום'. השם הנפוץ ביותר, אגב, הוא ברט (מי שקרוי בעברית 'בנץ' מהצמד 'אריק ובנץ') על כל הטיותיו. ולכן, אם במהלך פרויקט NLP נתקלתם במונח 'ברט' בצורה כזו או אחרת, אל תיבהלו: השם הוא מחווה לתוכנית שכולנו הכרנו בעבר, אך הפרויקט הוא לגמרי עם הפנים קדימה – וצופה אל עבר העתיד.