אתמול Mistral שחררו מודל vision בגודל 3B שרץ לגמרי בדפדפן דרך WebGPU.

נשמע לי ממש מגניב - מודל שאפשר להריץ מקומית בדפדפן בלי להתחבר ולהתקין שום דבר מסובך. רציתי להבין מה זה אומר אז ביררתי קצת.

מה זה WebGPU?

WebGPU זה API חדש שמאפשר לדפדפן לגשת ישירות ל-GPU - זה מאפשר לדפדפן להריץ מודלים של ML.

לפני (WebGL): הדפדפן יכול לצייר גרפיקה, אבל לא לעשות חישובים כבדים

עכשיו (WebGPU): הדפדפן יכול להריץ מודלים של ML על ה-GPU - כמו שרת אמיתי

זה כמו ההבדל בין לחשב משהו על מחשבון (CPU) לבין לחשב על אלף מחשבונים במקביל (GPU).

למה זה משנה?

  • אין צורך בשרת
  • אין API calls
  • אין עלויות שוטפות
  • המשתמש מוריד ~3GB ומריץ הכל מקומית

יתרונות נוספים: פרטיות מלאה, Offline apps, Zero-cost prototyping.

שאלתי את קלוד מה אפשר לעשות עם זה והיו לו כל מיני דוגמאות נחמדות.

הניסוי שלי

הייתי חייבת לנסות בעצמי: שלחתי לקלוד קוד את הדמו של המודל ב-HuggingFace וביקשתי ממנו שיבין איך לבנות עם זה webapp קטן.

התחלנו בזיהוי מהמצלמה כמו בדמו, הוספנו סריקת חשבוניות - המודל משתדל אבל קצת מתקשה.

ואז הוספתי גם:

  • ניתוח צילום מסך
  • זיהוי מאכלים
  • צ’ט בשביל הכיף

מה הלאה?

בעצם זה מודל פתוח שאפשר להריץ בדפדפן מכל מקום בלי מגבלת שימוש - נשמע התפתחות משמעותית.

למרות שעכשיו זה מודל קטן עם מגבלות, מעניין מה מודלים כאלה יוכלו לעשות עוד שנה?

לדמו שבניתי