אנונימי #10: צנרת מסמכים אוטומטית שחוסכת מאות שעות בחודש
משרד פיננסי גדול ביקש מערכת שתעבד מסמכי PDF בנפח גבוה ותחבר אותם לקובץ Excel סופי בפורמט נדרש. בנינו לו צנרת AI שמקבלת קבצים, מחלצת שדות באופן מדויק, מעבדת לוגית, ומוציאה Excel מובנה לפי תבנית מוקפדת. החיסכון מודד במאות שעות עבודה בחודש.
הסיפור: ממאות שעות חודשיות לעיבוד אוטומטי
משרד פיננסי גדול קיבל לקוחות שמגיעים עם ערימה של מסמכים סטנדרטיים בפורמט PDF. לעבד אותם ידנית, לחלץ שדות, לחבר ביניהם, ולהפיק Excel מובנה לפי תבנית רשמית, היה תהליך של שעות לפר לקוח. כפול עשרות לקוחות בחודש, זה הפך לצוואר בקבוק מרכזי במשרד.
בנינו לו צנרת בשבעה שלבים: קליטת קבצים, חילוץ שדות, נירמול, חיבור בין מסמכים מאותו לקוח, ולידציה, חישוב נוסחאות, וכתיבת Excel סופי. כל שלב הוא מודול נפרד, נבדק ידנית על דוגמאות לפני שעלה לפרודקשן. הדיוק על שדות סטנדרטיים מגיע ל-99% והשגיאות שנותרות מסומנות לבדיקה אנושית, לא נכנסות בשקט.
התוצאה: מה שלקח שעתיים פר לקוח לוקח עכשיו פחות מעשר דקות. צוות המשרד עובר בזמן הפנוי לטיפול בלקוחות פיקנטיים יותר, באסטרטגיה, ובדיוק שאף אדם לא יכול לעשות אוטומטית. החיסכון השוטף הוא מאות שעות בחודש.
תהליך העבודה המלא, משבעה שלבים
איך ההזמנה של הלקוח הפכה למערכת חיה. כל שלב יושב על השלב שלפניו, ובכל שלב הלקוח אישר את הפלט לפני שעברנו הלאה.
אפיון מבנה הקובץ הסופי
התחלנו מהסוף, לא מההתחלה. עברנו על קובץ Excel דוגמה שהמשרד מגיש כיום, וזיהינו את כל 40 השדות שצריך לאכלס: חלק מהמסמך הראשי, חלק מצירופים, חלק מחושב מאחרים. הסכמה הזו הייתה הקנה מדידה לכל שלבי הצנרת.
סקריפט קליטה ותיוג מסמכים
הלקוח מעלה לתיקיית קלט קבצים פר לקוח, ולעיתים פר חודש. הסוכן מזהה אוטומטית את סוג כל קובץ (לפי תבנית פנימית), מתייג אותו, ומעביר לתיקיית עבודה מסודרת. אם זוהה קובץ לא מוכר, נכנס לתיקיית "לבדיקה ידנית".
חילוץ שדות עם pdfplumber
עיקר השדות יושבים בטבלאות מובנות בתוך ה-PDFs. pdfplumber מטפל בעברית RTL, ב-grouping של תאים, ובמרכוז עמודות. לכל שדה הגדרנו אנקור (טקסט מסומן בקובץ) שיוצר זיהוי עמיד גם כשהקובץ קצת מתקצר.
שכבת AI להבחנות מורכבות
חלק מהשדות לא יושבים במיקום קבוע, או דורשים פירוש (למשל, אם תאריך כתוב בפורמט מילולי במקום מספרי). הוספנו שכבה של Anthropic API שמקבלת טקסט המקרה ומחזירה פרשנות מובנית. רק על שדות שלא ניתנים לחילוץ דטרמיניסטי.
חיבור בין מסמכים מאותו לקוח
לקוח מגיע לעיתים עם מספר מסמכים מתקופות שונות או ממקורות שונים. הצנרת מזהה אילו מסמכים שייכים לאותו לקוח (לפי שדות מזהים), מאחדת את הנתונים, ומפיקה רשומה אחת מובנית.
ולידציה והתראות שגיאה
אחרי האיחוד, שכבת ולידציה בודקת עקביות (סכומים מחוברים, תאריכים בטווח הגיוני, שדות חובה לא ריקים). שדה לא תקני מסומן ב-flag והקובץ עובר ל"לבדיקה ידנית". כך לא נכנסים נתונים שגויים בשקט.
יצירת Excel סופי לפי תבנית
openpyxl יוצר את הקובץ הסופי לפי תבנית מוקפדת: שני גיליונות, פונטים נכונים, צבעים, נוסחאות מחושבות אוטומטית, מסגרות, ורוחב עמודות נכון. הפלט נראה זהה לקובץ הידני, רק נוצר בלחיצה.
מה בוצע לבקשת הלקוח, פיצ'ר אחרי פיצ'ר
כל שורה ברשימה עלתה בפגישת אפיון ספציפית עם הלקוח, נכנסה ל-roadmap, נבנתה ועברה QA לפני שעלתה לפרודקשן.
קליטת קבצים אוטומטית מתיקייה
הלקוח מעלה PDFs לתיקייה. הסוכן עוקב, מזהה את הסוג, ומתחיל לעבד.
תיוג מסמכים לפי סוג
מסמכים מסווגים לקטגוריות פנימיות (סוג A, B, C). תוויות מאפשרות לוגיקה שונה פר סוג.
חילוץ שדות מובנים
pdfplumber מטפל בעברית RTL, בטבלאות, ובהפרדה של עמודות. כל שדה עם anchor ספציפי לעמידות מקסימלית.
שכבת AI לפרשנות
שדות לא דטרמיניסטיים (תאריכים מילוליים, ניסוחים שונים) נשלחים ל-Anthropic API לפרשנות מובנית.
חיבור מסמכים פר לקוח
מספר מסמכים מאותו לקוח מתאחדים לרשומה אחת. הקשרים נשמרים והשדות מתחברים.
ולידציה אוטומטית
בדיקת עקביות אחרי האיחוד. שדה שלא עובר ולידציה מסומן ועובר לבדיקה ידנית.
התראות על קבצים בעייתיים
אם הסוכן זיהה בעיה, הוא יוצר דוח עם הסיבה. הצוות יודע מיד אילו לקוחות דורשים התערבות.
Excel סופי בתבנית מוקפדת
openpyxl יוצר קובץ זהה לפלט הידני: פונטים, צבעים, נוסחאות, גבולות. הפלט מוכן להגשה ישירות.
נוסחאות מחושבות אוטומטית
סכומים, ממוצעים, ויחסי כסף מחושבים בתוך התבנית. אין צורך בעדכון ידני.
דשבורד עיבוד עם סטטיסטיקות
כמה לקוחות עיבדנו השבוע, אחוז הצלחה, מקרים שדורשים בדיקה. הצוות עוקב מבטחה.
גיבוי תוצאות לתיקיית ארכיון
כל קובץ סופי נשמר בארכיון מסודר לפי שנה ולקוח. אפשר לחזור לכל פלט ישן.
תיעוד מלא של הצנרת
מסמך פנימי שמפרט את כל 7 השלבים, אילו שדות זמינים, איך להוסיף שדה חדש, ואיך לטפל בקובץ חריג.
איך נראית הצנרת
אילוסטרציות שמציגות את העקרונות. הממשק והתבנית האמיתיים חסויים בגלל אופי הפרויקט הרגיש.
גיליון הסיכום הסופי
הפלט הסופי של הצנרת: גיליון מובנה עם פרטי לקוח, תקופות, סכומים מצטברים, וקודי שדה. הנתונים בתצוגה הזו מטושטשים לחלוטין לצרכי פרטיות.
גיליון חומר גלם
הגיליון השני בקובץ: פירוט פר מסמך מקור עם סטטוס עיבוד, שדות שחולצו, והערות מערכת אוטומטיות. שקיפות מלאה למבקר חיצוני.
שלוש יכולות שעושות את ההבדל
PDFs מובנים בלי שגיאות
pdfplumber + AI + ולידציה משולבת. שדה שלא ניתן לחילוץ אוטומטי מסומן, לא נכנס בשקט. הצוות לא מוצא טעויות בקבצים סופיים.
איחוד מסמכים אוטומטי
מספר מסמכים מאותו לקוח מתחברים לרשומה אחת מובנית. הקשרים בין מסמכים נשמרים, ומחושבים סכומים מאוחדים.
מאות שעות שחזרו
מה שלקח שעתיים פר לקוח לוקח עכשיו פחות מעשר דקות. הצוות מתמקד בעבודה איכותית במקום בעיבוד שגרתי.
בנייה בשיתוף Claude Code
לאורך כל הפרויקט עבדנו ב-Claude Code עם סקילים ייעודיים שמסדרים את שיטת העבודה: brainstorming לאפיון, writing-plans לתוכנית, TDD לפיתוח, debugging שיטתי לאיתור בעיות, ו-verification לפני סיום משימות.
סקילים פעילים בפרויקט
שישה סקילים מסדרים את התהליך: brainstorming לחלוקת שלבי ולידציה, writing-plans ל-schema של פלט Excel, TDD על דוגמאות מאומתות, debugging שיטתי לשדות עם anchor כושל, audit פרטיות וציות, ו-verification אוטומטי לפני שגרסה חדשה עולה לפרודקשן.
מבנה הפרויקט, חלוקת אחריות נקייה
שלב extract על Python שמחלץ מסמכים עם anchor finder ו-OCR fallback. שלב validators עם בדיקות עקביות, איחוד ופרטיות. שלב output על openpyxl שמייצר Excel לפי תבנית הלקוח. שכבת audit שמתעדת כל שינוי לטובת רגרסיה.
סיכום הקייס סטאדי
משרד פיננסי גדול הביא צוואר בקבוק שעבר על הצוות שלו. בנינו לו צנרת אוטומטית בשבעה שלבים שמעבדת מסמכים בנפח גבוה, מחברת אותם לקובץ Excel סופי לפי תבנית מוקפדת, ומסמנת רק את המקרים החריגים לבדיקה אנושית.
היום הצוות עובר משעתיים פר לקוח לפחות מעשר דקות. החיסכון מתורגם למאות שעות בחודש שיצאו לעבודה איכותית יותר, לטיפול אסטרטגי במקום לחילוץ נתונים, ולגידול בקיבולת הלקוחות של המשרד בלי להגדיל את הצוות.
הלקח: אוטומציית עיבוד מסמכים שגורתיים היא אחת מההשקעות הכי משתלמות שמשרד פיננסי או חוקי יכול לעשות. זה לא מחליף את הצוות, זה מחזיר לו את הזמן לעבודה שמצדיקה את התעריפים.
שאלות ותשובות
האם הסוכן מחליף את הצוות?
לא. הוא מחליף את העיבוד החוזר. שיקול דעת, התאמה ייחודית ללקוח, וייעוץ דורשים אדם. הסוכן רק חוסך את חילוץ הנתונים והרכבת הקובץ הסופי.
מה רמת הדיוק בפועל?
על שדות סטנדרטיים, 99%. על שדות מורכבים שדורשים פרשנות, 90-95%. כל שדה שלא עובר ולידציה מסומן ועובר לבדיקה אנושית.
מה קורה אם המסמכים משנים פורמט?
הסוכן מסמן את הקובץ כ"חריג" ועובר לבדיקה ידנית. אחרי הפעם הראשונה, מעדכנים את ה-anchors בקונפיג, וזה לוקח זמן קצר.
האם תומך גם בקבצי Word, לא רק PDF?
הארכיטקטורה תומכת. כיום מוטמע רק PDF כי זה מה שהלקוח מקבל. הוספת Word דורשת רק שכבת חילוץ נוספת.
איך מטפלים במידע רגיש?
הקבצים מעובדים על שרת מקומי של המשרד. אין שליחה לענן חיצוני, מלבד שכבת AI לפרשנות שדות מורכבים, ושם נשלח רק טקסט מינימלי בלי פרטים מזהים.
האם ה-AI יכול לטעות בפרשנות?
כן, ולכן יש שכבת ולידציה אחרי השכבת AI. שדה שלא עובר עקביות (למשל, סכום שלא מתחבר עם פרטים אחרים) מסומן ולא נכנס בשקט.
מה הזמן לעיבוד פר לקוח?
בממוצע 5-10 דקות פר לקוח, תלוי במספר המסמכים. במקום שעתיים ידני, החיסכון הוא בפועל פי 12-24.
האם תומך בכמות לקוחות בלתי מוגבלת?
כן, רץ בתור. עיבוד מקבילי של עד 5 לקוחות בו זמנית, יותר מזה תלוי במשאבי השרת.
מה לוקח להוסיף שדה חדש לתבנית?
זמן קצר, לרוב פחות משעה. מוסיפים anchor, מעדכנים את ה-Excel template, ובודקים על דוגמאות.
רוצים צנרת מסמכים אוטומטית למשרד שלכם?
השאירו פרטים ונחזור אליכם לפגישת אפיון. נסביר איך לבנות צנרת AI מותאמת לסוגי המסמכים שלכם, עם דיוק גבוה וזרימה אוטומטית לקובץ הסופי.