בניית מערכת Agent-Native ליצירת הדמיות אדריכליות

חברת Pure Blue Fish מתכוננת להקמת מתקן גידול דגים בטכנולוגיה סגורה בארה”ב. החברה פנתה אליי לסיוע ביצירת הדמיות לתוכנית האדריכלית עם סגנון עיצוב מבוקש.

יש פה הקשר רחב יחסית מעבר לשרטוט עצמו: מי החברה והמסרים שלה, הטכנולוגיה, מאפייני העיצוב, וגם תוכנית הבנייה עצמה כוללת מאפיינים ומידות מדויקות.

עבודה מקדימה עם קלוד

תכננתי להשתמש בנאנו בננה פרו כדי ליצור את ההדמיות, אבל קודם עשיתי עבודה מקדימה עם קלוד:

מחקר על החברה כדי להבין את הסיפור והטכנולוגיה
ניתוח השרטוטים להבנת המידות
אפיון העיצוב בסגנון טכנולוגי, סביבתי וכחול לבקשת החברה
יצירת מסמך מסכם עם המידות וסגנון העיצוב

את המסמך הסופי העברתי לקלוד קוד וביקשתי ממנו להשתמש ב-skill ליצירת תמונות כדי ליצור לי הדמיות. הוא הבין ויצר לי דוגמאות, אבל ברור שיש מה לשפר וגם בחברה ירצו לעשות שינויים.

הבעיה

העובדים לא טכנולוגיים ורציתי לאפשר להם ליצור הדמיות בקלות.

בניתי עם קלוד מערכת פשוטה שנותנת לג’מיני פרו את ההקשר המלא: מידע על החברה, אפיון העיצוב, מידות המתקן והשרטוטים.

עשיתי כמה ניסיונות אבל זה לא היה מספיק טוב. הבנתי גם שההקשר הרחב מעמיס על המודל ופוגע בדיוק.

הפתרון: מערכת Agent-Native

דיברתי עם קלוד ותכננו מערכת Agent-Native ליצירת ההדמיות. מערכת שבה ה-AI מחליט איזה מידע רלוונטי לכל בקשה:

אייג’נט מבוסס ג’מיני שמקבל את הקונטקסט: מידע על החברה, אפיון העיצוב ומידות המבנים.
המשתמש מתאר לאייג’נט את התמונה שהוא רוצה ליצור - כיוון, זווית, פרטים ספציפיים.
האייג’נט משתמש בקונטקסט שלו, שואל אם יש פרטים חסרים בבקשה, ויוצר את הפרומפט המתאים בלי להעמיס על המודל מידע לא רלוונטי.
המשתמש יכול לשנות את הקונטקסט דרך ה-UI (מידות חדשות, סגנון עיצובי חדש) בלי קוד.

היתרון

במקום לשלוח יותר מדי מידע בכל בקשה - כל המידות, המאפיינים, האלמנטים - לכל תמונה ג’מיני יוצר פרומפט מתאים עם המידע שנדרש.

בנוסף אם יש בקשות מיוחדות המשתמש יכול לבקש להכניס לפרומפט, למשל ליצור סדרה של תמונות מזווית מיוחדת.

נגיעות נוספות

קלוד השתמש גם ב-frontend design skill שלו כדי להתאים את העיצוב לחברה, עזר לי לכתוב הוראות שימוש ולבנות עמוד השראה עם זוויות ודוגמאות.

הרחבה: יצירת סרטונים עם Veo 3.1

הוספתי למערכת ההדמיות גם יצירת סרטונים עם Veo 3.1 של גוגל. החיבור קורה דרך ה-API - ביקשתי מקלוד קוד ללמוד מהמסמכים הרשמיים איך לבצע את זה, ב-plan mode כמובן.

עכשיו המערכת כוללת:

קונטקסט ושרטוטים מוטמעים ומתעדכנים
עוזר פרומפטים
יצירת תמונות
יצירת וידאו מהתמונות שנוצרו

והכול בממשק אחד שמתאים לצרכים הספציפיים.

בסוף קלוד גם בנה לעצמו skill, כדי שיוכל לבנות דברים דומים בקלות או ליצור סרטונים ישירות.

הגישה שלי

אני תמיד חושבת - לא “איך AI יעשה את זה בשבילי”, אלא “איך AI יעזור לי לבנות את הפתרון הנכון”?

אי אפשר לדעת לאן זה יגיע בסוף :)