בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.
ציון אמינות 78/100 (אמין) · 2 תורמים ב-GitHub · רישיון MIT
צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.
npx skills-il add skills-il/developer-tools --skill hebrew-llm-eval-suite -a claude-codeאנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.
Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.
אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.
יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?
בנייה והגדרה של תרחישי Make.com לתהליכים עסקיים ישראליים, כולל סנכרון Morning (חשבונית ירוקה), iCount, Monday.com, Priority ERP, שערי תשלום (Cardcom, Tranzila, Grow, Bit) ו-WhatsApp Business. מכסה AI Agents של Make.com, רפורמת חשבוניות 2026, מודולים קהילתיים ישראליים, טיפול בנתונים בעברית, Data Store לתקופות מע"מ, ותזמון מודע שבת. לא מיועד ל-n8n (השתמשו ב-n8n-hebrew-workflows) או Zapier (השתמשו ב-zapier-israeli-integrations).
מדריך למפתחים לבניית אינטגרציות שילוח עם חברות שילוח ישראליות (דואר ישראל, צ'יטה, HFD, מהיר לי) ושירותי לוקרים (BOX2GO, שלאגר, Done). הסקיל מכסה בחירת חברת שילוח, עיצוב כתובות ישראליות, הפקת תוויות, בניית מערכת מעקב חוצה-חברות והתראות ללקוחות. אל תשתמשו בסקיל הזה לבדיקת סטטוס של חבילה ספציפית (הפנו ל-mypost.israelpost.co.il), למשלוחים בינלאומיים מחוץ לישראל, או לנושאי מכס ויבוא.
בניית בוטים קוליים ומערכות מענה קולי (IVR) בעברית. מכסה זיהוי דיבור (Whisper, Google, Azure), סינתזת דיבור (Google TTS, Amazon Polly, Azure), עיצוב תפריטי IVR לעסקים ישראליים, תמלול הודעות קוליות, טיפול במבטאים שונים, ואינטגרציה טלפונית עם מספרי +972.
רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל