חבילת הערכת LLM בעברית
אמין86/100בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.
ציון אמינות 86/100 (אמין) · 25+ התקנות · 3 תורמים ב-GitHub · רישיון MIT
צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.
npx skills-il add skills-il/developer-tools@v1.2.0-hebrew-llm-eval-suite --skill hebrew-llm-eval-suite -a claude-codeהתקנה דרך Claude.ai, Claude Desktop, ChatGPT, Manus ופלטפורמות נוספות
- 1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
- 2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
- 3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
- 4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.
מתי להשתמש
- כשצריך לבחור LLM למוצר עברי חדש ולהצדיק את הבחירה בפני הנהלה
- כשצריך לענות על שאלות רכש של לקוח ארגוני לגבי ביצועים בעברית
- כשאחרי שדרוג ספק צריך לבדוק אם היה שיפור או רגרסיה באיכות העברית
- כשמאמתים מודל עברי שעשיתם לו fine-tuning מול baseline
- כשמשווים בין ספקים על משימה ספציפית: הבנה, תרגום, סיכום, או ניקוד
נסו את הפרומפטים האלה
אנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.
Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.
אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.
יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?
שאלות נפוצות
יומן שינויים
הוספת Gemini 3, Jamba 1.6 ו-Jamba-Reasoning-3B לרשימת המודלים, התאמת רשימות מודלים בין SKILL.md ל-scripts/run_eval.py, סימון טבלת ה-scorecard כ-placeholders ולא תוצאות מדודות, evidence.json.
20 במאי 2026
HEBREW-MMLU, lm-evaluation-harness ו-inspect_ai, אומת DictaLM 2.0/3.0, Aya/Hebrew-Mistral/Hebrew-Gemma, claude-opus-4-7, תיקון שורת טבלה ב-HE, סעיף הוגנות tokenizer.
25 באפר׳ 2026
סקילס קשורים
שיטות עבודה להפקת וידאו מקוד עם HyperFrames: קומפוזיציות שהן פשוט HTML + GSAP שמתרנדרות ל-MP4, עם תמיכה מלאה בעברית ו-RTL. הסקיל מסביר איך כותבים קומפוזיציה, מה עושים מאפייני data-* לתזמון, איך עובדים עם ה-Timeline של GSAP ושיטת Layout-Before-Animation, איך מטפלים ב-Visual Identity Gate, איך לטעון פונטים עבריים (Heebo, Rubik, Assistant) בלי `<link>` או `@import`, איפה שמים dir="rtl", איך מפיקים כתוביות עברית עם Whisper ומתמודדים עם קריינות בעברית כש-Kokoro המובנה לא תומך, איך להוסיף אפקטים שמגיבים לאודיו ומעברי סצנות, ואיך לעטוף טקסט מעורב עברית+אנגלית ב-<bdi>. מתאים לבניית תוכן וידאו מבוסס-HTML וסרטוני סושיאל ושיווק בעברית בלי React. לא מתאים ל-Remotion או לעבודת וידאו ב-React, שם השתמשו ב-remotion-best-practices.
בונים תרחישי Make.com לתהליכים עסקיים ישראליים: סנכרון Morning (חשבונית ירוקה), iCount, Monday.com, Priority ERP, שערי תשלום (Cardcom, Tranzila, Grow, Bit) ו-WhatsApp Business. מכסה AI Agents של Make.com, שרת ה-MCP של Make.com לחשיפת תרחישים ככלי סוכן, רפורמת חשבוניות 2026, מודולים קהילתיים ישראליים, טיפול בטקסט עברי, Data Store לתקופות מע"מ ותזמון שמתחשב בשבת. לא לשימוש ב-n8n (תשתמשו ב-n8n-hebrew-workflows) או Zapier (תשתמשו ב-zapier-israeli-integrations).
מדריך מעשי להקמת סטארטאפ בישראל ב-2026: רישום חברה בע"מ (אגרה 2,614 ש"ח, אגרה שנתית 1,338/1,777 ש"ח), בחירת תוכנית רשות החדשנות (תנופה עד 200 אלף ש"ח, קרן מו"פ, BIRD, יוזמה 2.0), הסכמי SAFE ושטר המיר, הקמת תוכנית 102 (תקופת החזקה 24 חודשים מתום שנת המס של ההענקה, מס רווח הון 25%), מעמד מפעל טכנולוגי מועדף (12% / 7.5%), והחלטה על Delaware Flip. השתמשו כשמשתמש שואל על רישום חברה, מענקים, השקעות, אופציות לעובדים או היערכות לדלאוור. אל תשתמשו לייעוץ מס בארה"ב או למבני חברה לא ישראליים. תמיד להמליץ על עורך דין ורואה חשבון ישראלים.
השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה
רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל