אנונימי #3: עורך וידאו ייעודי לחברת פרסום עם AI בעברית
חברת פרסום ישראלית הגיעה אלינו עם בעיה ספציפית: צוות העריכה שלה מבזבז שעות ידניות על משימות חוזרות בעריכת סרטוני קמפיינים. בנינו לה מאפס מערכת עריכת וידאו ייעודית מבוססת ווב, שמבינה הוראות עריכה בעברית, מתמללת קטעי אודיו לכתוביות אוטומטיות, מפרידה בין ערוצי קול, ומבצעת רינדור איכותי דרך FFmpeg ו-Remotion. הקייס סטאדי מוצג בעילום שם לבקשת הלקוח.
הסיפור: עורך וידאו ייעודי לחברת פרסום
פרויקט פיתוח מאפס שמשלב backend על FastAPI, frontend על React, מנוע רינדור על FFmpeg ו-Remotion, ושירותי AI לתמלול עברי ולעיבוד סאונד. כל זאת בעבודה משותפת עם Claude Code לאורך כל שלבי הפיתוח.
צילומי מסך מהמערכת הפעילה
צילומים מתוך הסביבה הפעילה של הלקוח. שם המערכת ופרטי לקוח טושטשו לשמירה על אנונימיות, אך כל הפעולות והממשק מציגים את המוצר האמיתי ששוכן אצל הלקוח.
מסך ראשי, יצירת עריכה חדשה
ממשק נקי בעברית RTL: גרירת קבצים או בחירה ידנית, ניהול פרויקטים מצד שמאל, תמיכה בקבצים עד 500 מגה. עורכים מתחילים עבודה תוך שניות.
רשימת היכולות, הוראות בעברית
חיתוך לפי זמן, הוספת כתוביות אוטומטיות, מיקום וצבע כתוביות, שינוי מהירות, סיבוב, השתקה, עוצמת קול, וחיתוך אזור. כל פעולה מופעלת דרך הוראה בעברית חופשית.
שלוש יכולות מתקדמות שעושות את ההבדל
המערכת לא מסתפקת בעריכה בסיסית. שלוש יכולות AI מתקדמות מטפלות במשימות שלוקחות לעורך אנושי שעות, ומבצעות אותן תוך דקות.
תמלול עברי אוטומטי (Whisper)
שילוב מלא של מודל Whisper לתמלול עברי ואנגלי. כתוביות אוטומטיות מסונכרנות לקטעי האודיו, ללא צורך בכותב חיצוני. המערכת זיהתה דיוק מצוין גם בקטעים עם רעש רקע, ודיבור מהיר.
הפרדת ערוצי קול (Demucs)
מנוע ייעודי לפיצול האודיו לערוצי וקאל ומוזיקה רקע נפרדים. מאפשר להחליש מוזיקה, להגביר דיבור, או להחליף קטע מוזיקה בלי לגעת בשאר הסאונד. שימושי במיוחד בעריכת סרטוני קמפיין מורכבים.
עריכה בשפה טבעית בעברית
parser ייעודי שמבין הוראות חופשיות בעברית, כמו "חתוך מ-0:30 עד 1:15", "הגבר ווליום ב-50 אחוז", "סובב 90 מעלות". העורך כותב כפי שהוא חושב, המערכת מתרגמת לפעולות FFmpeg מדויקות.
תהליך העבודה המלא, משבעה שלבים
איך ההזמנה של הלקוח הפכה למערכת חיה. כל שלב יושב על השלב שלפניו, ובכל שלב הלקוח אישר את הפלט לפני שעברנו הלאה.
אפיון עומק וזיהוי נקודות החיכוך
פגישה ראשונה עם הלקוח כדי להבין מה הוא עושה היום בעריכה. זיהינו שלוש נקודות חיכוך מרכזיות: סנכרון תמלול ידני, חיתוך לפי שפה ולא לפי גל קול, והפרדת ערוצי האודיו אחרי הקלטה. השלוש האלה הוסיפו ללקוח שעות עבודה ביום וקיבלו עדיפות עליונה ב-roadmap.
בחירת stack ובניית ארכיטקטורת backend
FastAPI כ-backend עם תורים אסינכרוניים לכל פעולה ארוכה (תמלול, רנדור, הפרדת ערוצים), כי המשתמש לא יכול לחכות מול בקשה חיה. SQLite לאחסון פרויקטים ומטא-דאטה, FFmpeg לעיבוד מדיה, Remotion לרנדור programmatic. כל שירות חיצוני נכנס מאחורי שכבת gateway אחת לטובת בדיקות ולטובת החלפה עתידית.
הזרמת SSE לכל פעולה ארוכה
תמלול וידאו של 20 דקות לוקח דקות. במקום להשאיר את המשתמש מול ספינר, חיברנו Server-Sent Events שמשדרים את אחוז ההתקדמות, השלב הנוכחי, ושמות השכבות שנפלטות (silence detection, ASR, post-processing). הלקוח רואה תהליך, לא קופסה שחורה.
שילוב Whisper לתמלול עברי + מילון מותאם
הרצנו Whisper-large עם מילון תיקונים מותאם לדומיין הפרסום של הלקוח: שמות מותגים, סלוגנים חוזרים, ביטויים ייחודיים. כל מילון מתעדכן פר פרויקט, וזמני המילים מסונכרנים ל-frame ברמה של מילי-שניה כדי שאפשר יהיה לחתוך לפי טקסט.
הפרדת ערוצי קול עם Demucs
הלקוח קיבל לעיתים קרובות וידאו עם קריינות ומוסיקה ב-mix אחד. שילבנו Demucs כדי להפריד בין vocals/drums/bass/other ולחשוף ערוצים בודדים. מאז הוא יכול להוריד את המוסיקה במקום שהקריינות בולטת, או להחליף את הסאונד טראק בלי לפגוע בקול.
שכבת הבנת שפה טבעית בעברית
בנינו parser שמתרגם פקודות עריכה בעברית ("חתוך מ-30 שניות עד דקה", "הוסף שתי שניות שקט בסוף", "תפעיל fade out") לפעולות FFmpeg/Remotion מובנות. הוא תומך גם בהפניה לטקסט ("חתוך מהמילה 'שלום' עד 'תודה'") כי זה מה שהלקוח אמר לו טבעי.
ממשק React + תקופת validation על תוכן אמיתי
הפרונט נבנה ב-React + Vite, RTL עברי מלא, עם פריוויו של הוידאו צמוד לטרנסקריפט החי. השבוע האחרון הוקדש לבדיקות על וידאו אמיתי של הלקוח: 30 קליפים בקטגוריות שונות (פרסומות, חידונים, סיפורים), עם feedback של הלקוח על איכות התמלול, נכונות החיתוכים והאינטונציה של פקודות בעברית.
מה בוצע לבקשת הלקוח, פיצ'ר אחרי פיצ'ר
כל שורה ברשימה עלתה בפגישת אפיון ספציפית עם הלקוח, נכנסה ל-roadmap, נבנתה ועברה QA על וידאו אמיתי שלו לפני שעלתה לפרודקשן.
תמלול עברי אוטומטי + מילון מותאם
תמלול קליפים של עד 30 דקות ברמה של מילי-שניה, עם מילון מותגים ומונחים ייחודיים שמתעדכן פר פרויקט. דיוק שיפר משמעותית את העבודה היומיומית.
חיתוך לפי טקסט, לא לפי גל קול
הלקוח מסמן בטרנסקריפט "מהמילה הזו עד הזו" ומקבל קליפ חתוך מדויק. בלי לחפש על ה-timeline, בלי לעבוד עם זמנים. זה הפיצ'ר שחיסך את הזמן הגדול ביום.
הפרדת ערוצי קריינות ומוזיקה
שילוב Demucs להוצאה של הקריינות מתוך mix מוקלט, או לבידוד של המוזיקה. מאפשר עדכון פסקול בלי להקליט מחדש, ושינוי קריינות בלי לשבור את האווירה.
עריכה בשפה טבעית בעברית
פקודות בעברית כמו "תחתוך את השניה הראשונה" או "תפעיל פייד אאוט". המערכת מבינה את הכוונה ומבצעת. הצוות מדבר עם המערכת כמו עם עורך אנושי.
תוויות זמן ופוזיציה אינטראקטיביות
סרגל זמן עברי מלא עם הצגת זמני מילים, סצינות וסילנסים. הלקוח לוחץ על מילה ומגיע אליה בקליפ. הסרגל הזה הוא הציר שמסביבו כל שאר הפעולות בנויות.
ייצוא mp4 ברנדור Remotion
אחרי כל סדרת עריכות הלקוח לוחץ "ייצא" ומקבל mp4 איכותי ב-1080p, מקודד H.264, מוכן לשליחה ללקוח קצה. הרנדור רץ ברקע ושולח התראה כשמסיים.
ניהול פרויקטים מרובים בו-זמנית
כל קליפ הוא פרויקט עם שם, תאריך, מטא-דאטה ושכבות עריכה. אפשר לפתוח כמה פרויקטים במקביל, להעביר אסטים בין פרויקטים, ולהשהות פרויקט באמצע.
היסטוריית גרסאות, undo רחב
כל פעולה נשמרת. הלקוח יכול לחזור לכל נקודה בפרויקט ולהשוות בין גרסאות. אין דאגה שניסיון אגרסיבי יחריב את העבודה של עכשיו.
סימון אוטומטי של שתיקות (silence detection)
זיהוי אוטומטי של רגעי שקט מעל סף שניתן לכוונן. הלקוח בלחיצה אחת מסיר אותם או מסמן אותם כמועמדים לחיתוך. עוד שעה ביום שחזרה לעבודה אמיתית.
ייצוא subtitles בעברית בפורמט srt/vtt
אחרי תמלול אפשר לייצא subtitles רגילים או vtt לאתרים. גם מעלה ישירות ל-YouTube ו-Vimeo דרך API. כתוביות מדויקות לכל קליפ בלי עבודה ידנית.
הסתרת מידע רגיש (placeholder masking)
זיהוי שמות, מספרי טלפון ומונחים שהלקוח סימן כרגישים, והחלפתם ב-placeholder או blur אוטומטי בפלט. שומר על פרטיות בקליפים שמיועדים לפרסום.
גישה ושיתוף לפי הרשאות
צוות הלקוח עובד על אותה פלטפורמה. כל משתמש רואה את הפרויקטים שלו, בעלים יכול לשתף עם חברי צוות אחרים, ויש log פעולות מלא לכל פרויקט.
בנייה בשיתוף Claude Code
לאורך כל הפרויקט עבדנו ב-Claude Code עם סקילים ייעודיים שמסדרים את שיטת העבודה: brainstorming לאפיון, writing-plans לתוכנית, TDD לפיתוח, debugging שיטתי לאיתור בעיות, ו-verification לפני סיום משימות.
סקילים פעילים בפרויקט
שישה סקילים מסדרים את התהליך: צפייה בסקילים שאני עובד איתם בפיתוח. כל סקיל מטפל באחריות מוגדרת, מה שמייצר שיטת עבודה צפויה ויציבה גם בפרויקטים גדולים.
מבנה הפרויקט, חלוקת אחריות נקייה
backend על FastAPI עם routers ושירותי AI נפרדים, frontend על React עם רכיבים ייעודיים, ותיקיית remotion למנוע רינדור programmatic. כל שכבה מטפלת באחריות אחת, וקלה לתחזוקה.
סיכום הקייס סטאדי
פרויקט פיתוח מאפס לחברת פרסום ישראלית הוכיח שאפשר לבנות בארבעה שבועות מערכת שאפילו פלטפורמות מסחריות גדולות לא נותנות: עריכת וידאו בעברית, עם תמלול אוטומטי, הפרדת ערוצי קול, ועריכה דרך הוראות בשפה חופשית. הלקוח קיבל בדיוק את היכולות שצוות העריכה שלו צריך, בלי לשלם רישיונות חודשיים על מאות פיצ'רים מיותרים.
הסוד מאחורי הקצב המהיר: שיטת עבודה ב-Claude Code עם סקילים ייעודיים שמסדרים אפיון, תכנון, פיתוח עם בדיקות, ובקרה איכותית לפני סיום כל שלב. שיטת עבודה כזאת מיועדת לפרויקטים שדורשים פיתוח אמיתי, ולא רק הרכבת בלוקים. אנחנו פתוחים לפרויקטי פיתוח דומים בענפים נוספים, ומזמינים אותך לפגישת אפיון.
שאלות ותשובות
למה הקייס סטאדי הזה אנונימי?
הלקוח, חברת פרסום ישראלית, ביקש לא לפרסם את שם החברה ואת המערכת שבנינו עבורה. הסיבה היא שיקולי תחרותיות: היכולות שהמערכת מספקת מהוות יתרון תפעולי על פני מתחרים בענף. אצלנו אפשרות להציג קייס סטאדי בעילום שם זמינה לכל לקוח שמעדיף שמירה על דיסקרטיות, בלי לוותר על הצגת היכולות והשיטה.
למה בחרתם FastAPI ולא Node.js או Django?
FastAPI נבחר משלוש סיבות עיקריות: ראשית, תמיכה מצוינת ב-Python מאפשרת שילוב טבעי של ספריות AI כמו Whisper ו-Demucs שכתובות ב-Python. שנית, ביצועים גבוהים בזכות ASGI ו-Pydantic. שלישית, תמיכה מובנית ב-SSE שדרושה לעדכוני התקדמות בזמן אמת בזמן רינדור וידאו. Node מתאים יותר לפרויקטים שמבוססים על JavaScript לאורך כל הסטאק, ו-Django נוטה להיות כבד יחסית לשירות API ייעודי.
למה Remotion ולא אוטומציה ל-After Effects או Premiere?
Remotion מאפשרת רינדור programmatic מתוך React, מה שאומר שהעורך הסופי הוא קוד, לא תוכנה גרפית כבדה. זה מאפשר ריצה בענן, scaling אוטומטי לפי עומס, ושילוב חלק עם ה-frontend הקיים. אוטומציה של AE/Premiere דורשת רישיון אדובי לכל שרת רינדור, ולא מתאימה לשירות SaaS עצמאי. במקרה של חברת פרסום, חשוב היה שהמערכת תרוץ באוטונומיה מלאה בלי תלויות חיצוניות.
כמה זמן לוקח לבנות מערכת כזאת מאפס?
בפרויקט הספציפי הזה הגענו לגרסה פעילה אצל הלקוח בארבעה שבועות. הקצב המהיר הזה התאפשר בזכות עבודה עם Claude Code לאורך כל הפיתוח, ובזכות אפיון מדויק שצמצם בדיקות ושינויים מאוחרים. פרויקטים דומים שאינם משתמשים בשיטה הזאת יכולים לקחת 8 עד 16 שבועות, תלוי במורכבות.
האם המערכת מתאימה לשימוש בחברות אחרות?
הארכיטקטורה ניתנת לאדפטציה לכל חברה שצריכה עורך וידאו ייעודי: סטודיו תוכן, חברות שיווק, חברות הפקה ועוד. כל לקוח מקבל מערכת ייעודית שמתאימה לתהליך העבודה שלו, ולא יורש תהליכים זרים. אם מעוניינים בפרויקט דומה, אפשר לתאם פגישת אפיון ולחתום על מסמך פיתוח ייעודי.
איך עובדת הפרדת ערוצי הקול?
אנחנו משתמשים ב-Demucs, מודל פתוח של Meta AI, שמפריד את ערוצי הסאונד לארבעה ערוצים נפרדים: vocals, drums, bass, other. בעורך הוידאו זה מאפשר להוריד מוזיקה ברקע, להגביר דיבור, או להחליף את ערוץ המוזיקה בלי לגעת בערוץ הדיבור. ההפרדה רצה ברקע על שרת ה-backend, והעורך מקבל את הקבצים המופרדים תוך כמה דקות.
איך משתלב Claude Code בפיתוח של פרויקטים מסוג זה?
Claude Code אצלנו אינו רק כלי כתיבת קוד, אלא שיטת עבודה שמחלקת פרויקט לסקילים ייעודיים. כל סקיל מטפל באחריות מוגדרת: צפייה בסקילים שאני עובד איתם בפיתוח. השיטה הזאת מקצרת זמני פיתוח, מקטינה טעויות, ומאפשרת תיעוד מובנה של ההחלטות לאורך הדרך.
רוצים מערכת עריכת וידאו ייעודית משלכם?
השאירו פרטים ונחזור אליכם לפגישת אפיון. נסביר מה אפשר לבנות לזרימת העבודה הספציפית של הצוות שלכם, אילו אינטגרציות נצרכות ומה לוחות הזמנים.