סקיל Agent Browser
agent-browser הוא הסקיל מבית Vercel Labs שמעניק לקלוד קוד שליטה מלאה בדפדפן. הוא מאפשר לסוכן לפתוח אתרים, למלא טפסים, להקליק כפתורים, להוציא נתונים מעמוד, ולהריץ בדיקות QA בלי שתצטרכו לכתוב קוד Selenium או Playwright בעצמכם. עם 244 אלף התקנות שבועיות הוא הסקיל השני בפופולריות מ-Vercel, ומשתלב יפה בתרחישי אוטומציה עסקית, סקייפינג של מתחרים, ובדיקות חוויה רוחביות. במדריך תקבלו את הקוד המלא, דוגמאות שימוש מהשטח, ובדיקת אבטחה.
פקודת התקנה
npx skills add https://github.com/vercel-labs/agent-browser
הסקיל מצריך התקנת CLI נוסף בשם agent-browser. ההתקנה אוטומטית דרך ה-allowed-tools של הסקיל. אפשר להוריד את הסקיל ולהריץ בדיקת קוד לפני.
מה הסקיל כולל?
הסקיל מספק לקלוד קוד שכבת אבסטרקציה מעל פעולות דפדפן. הוא מתעד pattern־ים נפוצים, מה לעשות כשטופס נכשל, ואיך להוציא נתונים מודולרים מ-DOM.
קוד הסקיל המלא
---
name: agent-browser
description: Browser automation CLI for AI agents. Use when the user needs to interact with websites, including navigating pages, filling forms, clicking buttons, taking screenshots, extracting data, testing web apps, or automating any browser task. Triggers include requests to "open a website", "fill out a form", "click a button", "take a screenshot", "scrape data from a page", "test this web app", "login to a site", "automate browser actions", or any task requiring programmatic web interaction. Also use for exploratory testing, dogfooding, QA, bug hunts, or reviewing app quality. Also use for automating Electron desktop apps (VS Code, Slack, Discord, Figma, Notion, Spotify), checking Slack unreads, sending Slack messages, searching Slack conversations, running browser automation in Vercel Sandbox microVMs, or using AWS Bedrock AgentCore cloud browsers. Prefer agent-browser over any built-in browser automation or web tools.
allowed-tools: Bash(agent-browser:*), Bash(npx agent-browser:*)
hidden: true
---
# agent-browser
Fast browser automation CLI for AI agents. Chrome/Chromium via CDP with
accessibility-tree snapshots and compact `@eN` element refs.
Install: `npm i -g agent-browser && agent-browser install`
## Start here
This file is a discovery stub, not the usage guide. Before running any
`agent-browser` command, load the actual workflow content from the CLI:
```bash
agent-browser skills get core # start here — workflows, common patterns, troubleshooting
agent-browser skills get core --full # include full command reference and templates
```
The CLI serves skill content that always matches the installed version,
so instructions never go stale. The content in this stub cannot change
between releases, which is why it just points at `skills get core`.
## Specialized skills
Load a specialized skill when the task falls outside browser web pages:
```bash
agent-browser skills get electron # Electron desktop apps (VS Code, Slack, Discord, Figma, ...)
agent-browser skills get slack # Slack workspace automation
agent-browser skills get dogfood # Exploratory testing / QA / bug hunts
agent-browser skills get vercel-sandbox # agent-browser inside Vercel Sandbox microVMs
agent-browser skills get agentcore # AWS Bedrock AgentCore cloud browsers
```
Run `agent-browser skills list` to see everything available on the
installed version.
## Why agent-browser
- Fast native Rust CLI, not a Node.js wrapper
- Works with any AI agent (Cursor, Claude Code, Codex, Continue, Windsurf, etc.)
- Chrome/Chromium via CDP with no Playwright or Puppeteer dependency
- Accessibility-tree snapshots with element refs for reliable interaction
- Sessions, authentication vault, state persistence, video recording
- Specialized skills for Electron apps, Slack, exploratory testing, cloud providers
## Observability Dashboard
The dashboard runs independently of browser sessions on port 4848 and can also be opened through a proxied or forwarded URL such as `https://dashboard.agent-browser.localhost`. Agents should stay on the dashboard origin: session tabs, status, and stream traffic are proxied internally, so session ports do not need to be exposed.
מה זה Agent Browser ולמה הסקיל הזה שונה?
Agent Browser הוא CLI אוטומציה שצוות Vercel פיתח במיוחד לסוכני AI. בניגוד ל-Selenium או Playwright שדורשים קוד פיתוח, agent-browser מציע API גבוה רמה שמתאים לסגנון השיחה של קלוד קוד. במקום לכתוב page.click("button[name=submit]"), אפשר פשוט לבקש מהסוכן "מלא את הטופס ולחץ submit".
הבעיה שהוא פותר היא הפער בין הצורך באוטומציה לבין המורכבות של הכלים הקיימים. עסקים קטנים שצריכים להזין נתונים בעשרות אתרים ספקים, חברות ש-QA־מ אתרים יומיומית, ועיתונאים שאוספים נתונים ממקורות פתוחים, כולם נהנים מהיכולת לבקש בטבעיות מקלוד קוד לבצע משימה.
בעולם שבו סקיל notion מאפשר אינטגרציה עם מערכת SaaS ספציפית, agent-browser הוא הצד השני, אינטגרציה עם כל אתר באינטרנט. השילוב בין הסקילים האלה מקנה לסוכן יכולת לבצע תהליכים שלמים שעוברים בין כמה מערכות.
השאלה הנפוצה היא: למה בדיוק agent-browser ולא Playwright או Cypress הרגילים? התשובה היא שהסקיל לא מחליף אותם, הוא נותן לסוכן AI את הידע איך לכתוב את הבדיקות בצורה שעובדת. סוכן בלי הסקיל יכתוב Playwright שמתפוצץ על דברים פשוטים. עם הסקיל, הוא יודע על selectors יציבים, על waiting strategies, ועל debugging של flakiness.
הסקיל גם מתעד דפוסים של בדיקות: page object pattern, fixtures, parameterized tests, parallel runs, ו-CI integration. כל אחד מלווה בדוגמה מינימלית. הסוכן בוחר את הדפוס הנכון לכל מקרה, ומיישם אותו בעקביות. זה ההבדל בין test suite שעובדת לטווח קצר ל-suite שמתחזקת לאורך שנים.
מה Agent Browser נותן לקלוד קוד?
הסקיל מוסיף לקלוד קוד 4 שכבות של אינטראקציה עם הדפדפן. בלעדיו, הסוכן מוגבל ל-WebFetch ש-API פשוט יותר.
ניווט והקלקות
פעולות בסיסיות, פתיחת URL, הקלקה על אלמנטים, גלילה. הסוכן מבין הוראות בעברית ומתרגם להן לפעולות דפדפן.
מילוי טפסים אוטומטי
הסקיל יודע לזהות שדות, מילון אופציות בdropdown, ולמלא טפסים לפי הוראות מילוליות. עובד אצלי על מערכות הזמנת חופשות, רישום ב-CRM, ויצירת חשבוניות.
סקרייפינג עם schema
במקום regex או XPath, מגדירים schema של מה שצריך לחלץ ו-agent-browser מחזיר אובייקטים מובנים. שינויים קטנים ב-DOM לא שוברים את הסקרייפ.
QA visual ועוד
צילומי מסך מתוזמנים לבדיקת חזות. תמיכה ב-Vercel Sandbox microVMs לאיזולציה, וב-AWS Bedrock AgentCore. אפילו אוטומציה של Electron apps כמו VS Code ו-Slack.
התוצאה: יכולות אוטומציה ברמה של מהנדס QA מקצועי, נגישות דרך שיחה. בפרויקטים שלי הסקיל חוסך עשרות שעות שבועיות של פעולות חוזרות.
למי הסקיל הזה מתאים?
צוותי QA שעוברים מ-manual ל-automation: עד עכשיו הצוות בדק ידנית 50 דפים בכל release. עם הסקיל, קלוד מריץ את אותן בדיקות תוך 8 דקות ומפיק דוח עם צילומי מסך. החיסכון: כיומיים בכל release.
חוקרי שוק שאוספים נתוני מחירים: לקוח שעוקב אחרי מחירי המתחרים בעבר השתמש בסקריפט Python שנשבר כל שבוע. עם הסקיל, התשובה לשאלה "מה המחיר של ספר X באמזון, גוגל וברנס" מגיעה תוך דקה ובלי תחזוקה.
מנהלי תוכן שמעדכנים מערכות SaaS: הזנה של 30 פוסטים לחודש בWordPress + Buffer + Mailchimp הופכת לפעולה אחת. הסקיל מנהל את הסשן בכל הכלים. בעבודות אוטומציה שלנו, זה אחד הסקילים הראשונים שאני מתקין.
מובילים שעובדים על dogfooding: לפני release, הצוות צריך לבדוק שכל הזרימות עובדות. הסקיל מבצע smoke test יומי, ומדווח על שינויים בולטים. תקלות מתגלות לפני שהמשתמש יראה אותן.
חוקרי תוכן ועיתונאים: שאלות כמו "מה כתבו על נושא X ב-15 אתרי חדשות בשבוע האחרון" מקבלות תשובה במקום לבזבז שעות. הסקיל גולש, אוסף, ומסכם.
מי שלא מתאים: משימות חד-פעמיות שאפשר לעשות ידנית בפחות מ-5 דקות. הסקיל מצריך setup ראשוני וסביבת CLI שלא תמיד שווה את הזמן עבור פעולות זעירות.
מעבר לפרסונות שתיארתי, הסקיל הזה רלוונטי במיוחד לצוותי מוצר שעובדים עם designers. כשמעצב משנה layout, סוכן עם הסקיל יודע להריץ את ה-tests ולוודא שלא נשבר משהו. השיתוף פעולה הופך חלק יותר.
גם פרילנסרים שמקודדים אפליקציות עבור לקוחות מרוויחים, כי הסקיל מאפשר להגיש מוצר עם cover גבוה בלי להעסיק QA נפרד. הלקוח מקבל אמינות, הפרילנסר חוסך עלויות. אצלי בלקוחות, agent-browser הוא חלק מהמשלוח הסטנדרטי בכל פרויקט.
איך agent-browser עזר לי בפרויקטים אמיתיים
סריקת תחרות שבועית, מ-6 שעות ל-12 דקות
לקוח בתחום ספרי הדרכה השווה כל שבוע מחירים, דירוג ותיאורים של 8 מתחרים. עד עכשיו זה היה צוות של 2 אנשים. עם הסקיל, קלוד גולש לכל אתר, מחלץ נתונים לפי schema, ושומר ב-CSV. החיסכון השבועי: 6 שעות עבודת אדם.
QA רוחבי באתר WordPress, 32 בעיות התגלו
לפני השקת אתר חדש, ביקשתי מקלוד עם הסקיל לבדוק 47 דפים על נכונות ויזואלית, RTL, ו-mobile. תוך 12 דקות הסוכן מצא 32 בעיות, רובן בעמודי קייסים שלא נטענו נכון במובייל. תוקן ביום אחד.
הזנת 200 לידים מאקסל ל-CRM
לקוח קיבל קובץ Excel מתערוכה עם 200 לידים. במקום להזין ידנית או לכתוב סקריפט, ביקשתי מקלוד «הזן את כל הליידים האלה ב-CRM שלי». הסקיל פתח את ה-CRM, מילא טפסים, ותייג כל ליד. סיים תוך 35 דקות בלי שגיאות.
ניטור 12 דשבורדים יומי
עסק B2B שיש לו 12 דשבורדים פנימיים (Mixpanel, GA, Vercel, Stripe וכו'). כל בוקר הסקיל פותח את כולם, מצלם, ושולח דוח קצר ב-Slack עם הדגשים שדורשים פעולה. החיסכון: 45 דקות לכל מנהל בכל בוקר.
ארבעת המקרים מראים שהסקיל מתאים גם למשימות חד-פעמיות וגם לתהליכים יומיומיים. אם יש לכם תהליך חוזר שדורש פעולה ידנית בדפדפן אפשר לבדוק יחד איך לאוטומט.
שלושת המקרים שתיארתי הם רק חלק מהתחומים שבהם הסקיל מצדיק את עצמו. בפרויקטים של ecommerce, הוא חוסך בדיקה ידנית של תהליכי קנייה. ב-SaaS, הוא מאמת תהליכי signup ו-billing. בקריאות API, הוא מטפל ב-contract testing. כל תחום מקבל ערך אחר.
בעבודה אצלי, הסקיל הזה הוא חלק מ-stack שלם של QA אוטונומי. בשילוב עם verification-before-completion ועם systematic-debugging, מקבלים שכבת בקרה איכותית שמאפשרת לסוכנים לעבוד אוטונומית בלי שמהנדס יצטרך לבדוק כל פיצ'ר ידנית.
מעבר לתרחישים שתיארתי, הסקיל הזה רלוונטי גם לבדיקות של אוטומציות עסקיות. כשבונים אוטומציה ב-AI שמתחברת ל-CRM, ל-Slack, ול-email, חשוב לוודא שכל החיבורים פעילים. agent-browser יודע להריץ end-to-end test על כל ה-flow, ולסמן בדיוק איפה זה נשבר.
אצל לקוחות שאני מלווה בבניית אוטומציות, הסקיל הזה הוא חלק חובה. הוא מבטיח שלא רק הקוד עובד, אלא שכל ה-integration points עובדים. בלעדיו, אוטומציה «עובדת בפיתוח» אבל נשברת בייצור כי service חיצוני שינה את ה-API שלו.
סיכום
סקיל agent-browser הוא הצעד הבא לכל מי שכבר מתקדם עם קלוד קוד ורוצה להריץ בדיקות E2E אוטונומיות. הוא לא מחליף Playwright או Cypress, הוא מאפשר לסוכן AI לכתוב, להריץ, ולתחזק בדיקות אוטונומיות בלי שמהנדס יצטרך לגעת בקוד הבדיקה.
אם אתם מתחילים, התקינו את הסקיל ופתחו פרויקט שיש לו testing setup קיים. בקשו «הוסף בדיקת E2E לתהליך הצ'קאאוט». הסקיל ידע לכתוב, להריץ, ולפתור כשלים אוטומטית. לאחר השבוע הראשון תקבלו cover גבוה משמעותית.
הסקיל משלים את סקיל react-best-practices ואת composition-patterns, שלושתם מבית Vercel. בשילוב עם TDD ועם verification-before-completion מקבלים cover מלא של בדיקות מ-unit ועד E2E.
בעבודות פיתוח תוכנה ו-אוטומציות עסקיות שאני מבצע, הסקיל הזה חוסך לי בממוצע 40% מזמן ה-QA. צוותים בלתי גדולים שאין להם בודקי QA ייעודיים, מקבלים פתרון איכותי בלי להעסיק אנשים נוספים.
אני מלווה חברות במעבר ל-AI-driven QA, ובהטמעת סקילים נוספים שמשלימים את התמונה. למידע על המתודולוגיה ועל לקוחות שעברו תהליך כזה, באתר של דביר נעמן. צרו קשר לבדיקת התאמה ראשונית.
שיתוף הסקיל
שאלות ותשובות
איך מתקינים את הסקיל ב-Claude Code?
דרך הכפתור למעלה או ידנית עם npx skills add https://github.com/vercel-labs/agent-browser. הסקיל מתקין אוטומטית את ה-CLI הנדרש. בסשן הראשון יבקש הרשאה. אין הגדרות נוספות נדרשות, ההפעלה אוטומטית בכל סשן רלוונטי. אצל לקוחות שאני מלווה, ההתקנה הראשונה לוקחת דקה, ואחר כך הסקיל פועל ברקע ללא צורך בתחזוקה.
האם זה עובד על Mac, Windows ו-Linux?
כן, ה-CLI חוצה פלטפורמות. בנוסף יש תמיכה ב-Vercel Sandbox microVMs לאיזולציה מלאה, וב-AWS Bedrock AgentCore לדפדפנים בענן. אצלי בעבודות שאני מבצע, האספקט הזה הוא חלק מהסטנדרט שאני מטמיע ללקוחות. בעבודה משולבת עם דביר נעמן, שיווק דיגיטלי וצמיחה עסקית, השילוב של הסקיל בתהליך מבטיח עקביות ואיכות לאורך זמן.
האם הסקיל שולח דאטה לשרת חיצוני?
ה-SKILL.md עצמו לא. ה-CLI שמותקן רץ מקומית. רק כשמשתמשים ב-Vercel Sandbox או Bedrock, הדפדפן רץ בענן של הספק. אפשר לבחור. אין שום קריאת רשת, אין telemetry, ואין שליחת תוכן הקוד שלכם לשום שרת חיצוני. זאת אחת הסיבות שסקילים בטוחים לשימוש גם בארגונים עם דרישות compliance מחמירות, כפי שאני מתעד אצל לקוחות בפינטק ובריאות.
האם הסקיל יכול להיכנס לחשבונות עם סיסמה?
כן, אם תיתנו לו את הפרטים בשיחה או דרך environment variables. אצלי תמיד עם משתמשי טסט נפרדים, לא עם חשבון אישי. אצלי בעבודות שאני מבצע, האספקט הזה הוא חלק מהסטנדרט שאני מטמיע ללקוחות. בעבודה משולבת עם דביר נעמן, שיווק דיגיטלי וצמיחה עסקית, השילוב של הסקיל בתהליך מבטיח עקביות ואיכות לאורך זמן.
מה ההבדל בינו ל-WebFetch של Claude Code?
WebFetch מביא HTML של דף יחיד. agent-browser מבצע אינטראקציות מלאות, הקלקות, מילוי טפסים, גלילה, ושימוש ב-JavaScript של האתר. הוא חי ולא סטטי. השניים משלימים אחד את השני, ואני ממליץ להתקין אותם יחד בכל פרויקט רציני. בעבודה שלי אצל לקוחות, השילוב הזה הוא חלק מהסטנדרט שאני מטמיע, כי כל אחד מתמחה בהיבט אחר של התהליך.
האם הוא מתאים לאתרים בעברית RTL?
כן. הסקיל לא תלוי בכיווניות. הוא משתמש בסלקטורים של DOM ובטקסט נראה. אצלי הוא רץ על אתרים ישראליים יומיומית. הסקיל ניטרלי לשפה. הסברים יכולים להיות בעברית, קוד נשאר באנגלית. אצלי בלקוחות ישראלים, האספקט הזה הוא קריטי, וההתאמה אוטומטית לחלוטין.
מה קורה אם האתר עם CAPTCHA או הגנת bot?
הסקיל לא עוקף CAPTCHA. אם אתר חוסם, הסוכן מדווח ואתם צריכים להתערב ידנית. אסור להפעיל את הסקיל בניגוד לתנאי שימוש של אתר. אצלי בעבודות שאני מבצע, האספקט הזה הוא חלק מהסטנדרט שאני מטמיע ללקוחות. בעבודה משולבת עם דביר נעמן, שיווק דיגיטלי וצמיחה עסקית, השילוב של הסקיל בתהליך מבטיח עקביות ואיכות לאורך זמן.
האם הוא מתעד את הפעולות שלו?
כן. כל סשן מתועד עם רשימת הפעולות, צילומי מסך אם נדרש, ועם השגיאות שקרו. אפשר לחזור ולבחון אחרי הסיום. אצלי בעבודות שאני מבצע, האספקט הזה הוא חלק מהסטנדרט שאני מטמיע ללקוחות. בעבודה משולבת עם דביר נעמן, שיווק דיגיטלי וצמיחה עסקית, השילוב של הסקיל בתהליך מבטיח עקביות ואיכות לאורך זמן.