דלג לתוכן

חבילת הערכת LLM בעברית

אמין86/100
לפני שמחליטים האם להתקין, צ׳אט חי עם סקיל

בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.

ציון אמינות 86/100 (אמין) · 25+ התקנות · 3 תורמים ב-GitHub · רישיון MIT

הבעיה

צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.

skills-ilskills-ilכלי פיתוח
1.2.0MITGitHub
25התקנות1,146צפיות
0כתיבת ביקורת
npx skills-il add skills-il/developer-tools@v1.2.0-hebrew-llm-eval-suite --skill hebrew-llm-eval-suite -a claude-code
התקנה דרך Claude.ai, Claude Desktop, ChatGPT, Manus ופלטפורמות נוספות
  1. 1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
  2. 2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
  3. 3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
  4. 4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.
יצאה גרסה חדשה? איך מעדכנים את הסקיל שהתקנתם
לא בטוחים איך? קראו את המדריך

מתי להשתמש

  • כשצריך לבחור LLM למוצר עברי חדש ולהצדיק את הבחירה בפני הנהלה
  • כשצריך לענות על שאלות רכש של לקוח ארגוני לגבי ביצועים בעברית
  • כשאחרי שדרוג ספק צריך לבדוק אם היה שיפור או רגרסיה באיכות העברית
  • כשמאמתים מודל עברי שעשיתם לו fine-tuning מול baseline
  • כשמשווים בין ספקים על משימה ספציפית: הבנה, תרגום, סיכום, או ניקוד

נסו את הפרומפטים האלה

בחירת מודל סיכום

אנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.

רגרסיה אחרי שדרוג

Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.

בחירה בין Claude ל-Jamba

אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.

מודל מקומי מול ענן

יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?

שאלות נפוצות

יומן שינויים

v1.2.0

הוספת Gemini 3, Jamba 1.6 ו-Jamba-Reasoning-3B לרשימת המודלים, התאמת רשימות מודלים בין SKILL.md ל-scripts/run_eval.py, סימון טבלת ה-scorecard כ-placeholders ולא תוצאות מדודות, evidence.json.

20 במאי 2026

v1.1.0

HEBREW-MMLU, lm-evaluation-harness ו-inspect_ai, אומת DictaLM 2.0/3.0, Aya/Hebrew-Mistral/Hebrew-Gemma, claude-opus-4-7, תיקון שורת טבלה ב-HE, סעיף הוגנות tokenizer.

25 באפר׳ 2026

סקילס קשורים

skills-ilיוצר: skills-il
v1.1.0פופולריבמגמת עלייה

שיטות עבודה להפקת וידאו מקוד עם HyperFrames: קומפוזיציות שהן פשוט HTML + GSAP שמתרנדרות ל-MP4, עם תמיכה מלאה בעברית ו-RTL. הסקיל מסביר איך כותבים קומפוזיציה, מה עושים מאפייני data-* לתזמון, איך עובדים עם ה-Timeline של GSAP ושיטת Layout-Before-Animation, איך מטפלים ב-Visual Identity Gate, איך לטעון פונטים עבריים (Heebo, Rubik, Assistant) בלי `<link>` או `@import`, איפה שמים dir="rtl", איך מפיקים כתוביות עברית עם Whisper ומתמודדים עם קריינות בעברית כש-Kokoro המובנה לא תומך, איך להוסיף אפקטים שמגיבים לאודיו ומעברי סצנות, ואיך לעטוף טקסט מעורב עברית+אנגלית ב-<bdi>. מתאים לבניית תוכן וידאו מבוסס-HTML וסרטוני סושיאל ושיווק בעברית בלי React. לא מתאים ל-Remotion או לעבודת וידאו ב-React, שם השתמשו ב-remotion-best-practices.

0.0281,127
Claude CodeCursorWindsurf+7
skills-ilיוצר: skills-il
v2.2.0פופולריבמגמת עלייה

בונים תרחישי Make.com לתהליכים עסקיים ישראליים: סנכרון Morning (חשבונית ירוקה), iCount, Monday.com, Priority ERP, שערי תשלום (Cardcom, Tranzila, Grow, Bit) ו-WhatsApp Business. מכסה AI Agents של Make.com, שרת ה-MCP של Make.com לחשיפת תרחישים ככלי סוכן, רפורמת חשבוניות 2026, מודולים קהילתיים ישראליים, טיפול בטקסט עברי, Data Store לתקופות מע"מ ותזמון שמתחשב בשבת. לא לשימוש ב-n8n (תשתמשו ב-n8n-hebrew-workflows) או Zapier (תשתמשו ב-zapier-israeli-integrations).

0.0541,328
Claude CodeCursorGitHub Copilot+4
skills-ilיוצר: skills-il
v1.2.0פופולרי

מדריך מעשי להקמת סטארטאפ בישראל ב-2026: רישום חברה בע"מ (אגרה 2,614 ש"ח, אגרה שנתית 1,338/1,777 ש"ח), בחירת תוכנית רשות החדשנות (תנופה עד 200 אלף ש"ח, קרן מו"פ, BIRD, יוזמה 2.0), הסכמי SAFE ושטר המיר, הקמת תוכנית 102 (תקופת החזקה 24 חודשים מתום שנת המס של ההענקה, מס רווח הון 25%), מעמד מפעל טכנולוגי מועדף (12% / 7.5%), והחלטה על Delaware Flip. השתמשו כשמשתמש שואל על רישום חברה, מענקים, השקעות, אופציות לעובדים או היערכות לדלאוור. אל תשתמשו לייעוץ מס בארה"ב או למבני חברה לא ישראליים. תמיד להמליץ על עורך דין ורואה חשבון ישראלים.

0.0481,807
Claude CodeCursorGitHub Copilot+5
מצאתם בעיה בסקיל הזה?

השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה

רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל

ביקורות (0)

אין ביקורות עדיין. כתבו את הביקורת הראשונה!