אתמול Mistral שחררו מודל vision בגודל 3B שרץ לגמרי בדפדפן דרך WebGPU.
נשמע לי ממש מגניב - מודל שאפשר להריץ מקומית בדפדפן בלי להתחבר ולהתקין שום דבר מסובך. רציתי להבין מה זה אומר אז ביררתי קצת.
מה זה WebGPU?
WebGPU זה API חדש שמאפשר לדפדפן לגשת ישירות ל-GPU - זה מאפשר לדפדפן להריץ מודלים של ML.
לפני (WebGL): הדפדפן יכול לצייר גרפיקה, אבל לא לעשות חישובים כבדים
עכשיו (WebGPU): הדפדפן יכול להריץ מודלים של ML על ה-GPU - כמו שרת אמיתי
זה כמו ההבדל בין לחשב משהו על מחשבון (CPU) לבין לחשב על אלף מחשבונים במקביל (GPU).
למה זה משנה?
- אין צורך בשרת
- אין API calls
- אין עלויות שוטפות
- המשתמש מוריד ~3GB ומריץ הכל מקומית
יתרונות נוספים: פרטיות מלאה, Offline apps, Zero-cost prototyping.
שאלתי את קלוד מה אפשר לעשות עם זה והיו לו כל מיני דוגמאות נחמדות.
הניסוי שלי
הייתי חייבת לנסות בעצמי: שלחתי לקלוד קוד את הדמו של המודל ב-HuggingFace וביקשתי ממנו שיבין איך לבנות עם זה webapp קטן.
התחלנו בזיהוי מהמצלמה כמו בדמו, הוספנו סריקת חשבוניות - המודל משתדל אבל קצת מתקשה.
ואז הוספתי גם:
- ניתוח צילום מסך
- זיהוי מאכלים
- צ’ט בשביל הכיף
מה הלאה?
בעצם זה מודל פתוח שאפשר להריץ בדפדפן מכל מקום בלי מגבלת שימוש - נשמע התפתחות משמעותית.
למרות שעכשיו זה מודל קטן עם מגבלות, מעניין מה מודלים כאלה יוכלו לעשות עוד שנה?