למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

כי אקזקט מאצ'ינג על עברית שביר מאוד בגלל צורות סופית, ניקוד, ושינויים ברווחים. גם תשובות נכונות מקבלות ציון 0 ב-EM ללא נרמול. F1 על שורות נורמליזציה הוא המטריקה האמינה.

כמה דוגמאות צריך לכל בנצ'מרק?

מינימום 500, רצוי 1000+. בנצ'מרקים קטנים כמו Hebrew Winograd עם פחות מ-300 פריטים דורשים מספר ריצות (לפחות 3) כדי לקבל הערכה אמינה עם סטיית תקן.

האם BLEU אמין לתרגום מעברית או אל עברית?

לא לבד. המורפולוגיה העשירה של עברית גורמת ל-BLEU להמעיט בהערכה. דווחו תמיד גם chrF, ובדקו ידנית דגימה של התוצאות הנמוכות.

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

או שתשתמשו ב-few-shot prompting על שניהם, או שתשתמשו בגרסאות ה-Instruct של DictaLM (למשל DictaLM-3.0-Nemotron-12B-Instruct). השוואה zero-shot של chat prompt מול מודל בסיס מפלה את מודל הבסיס.

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

לוגגו את מחרוזת הגרסה המדויקת שה-API מחזיר (claude-opus-4-6-20251001, לא רק claude-opus-4-6). שמרו scorecard לכל גרסה. הריצו שוב בכל שדרוג גדול. ההשוואה בין הגרסאות היא הרגרסיה.

חבילת הערכת LLM בעברית

אמין76/100

לפני שמחליטים האם להתקין, צ׳אט חי עם סקיל

בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.

הבעיה

צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.

skills-il כלי פיתוח|53התקנות2,577צפיות

0כתיבת ביקורת

1.2.0MITGitHub

53התקנות2,577צפיות

0כתיבת ביקורת

עודכן: 12 ביולי 2026|תגיות:הערכת-llm בנצ'מרק עברית HeQ DictaLM AI21-Jamba Claude GPT ml ישראל

איך להשתמש בסקיל הזה

לא בטוחים איך? קראו את המדריך

1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.

יצאה גרסה חדשה? איך מעדכנים את הסקיל שהתקנתם

מפתחים? התקנה דרך שורת הפקודה (CLI)

npx skills-il add skills-il/developer-tools@v1.2.0-hebrew-llm-eval-suite --skill hebrew-llm-eval-suite -a claude-code

מתי להשתמש

כשצריך לבחור LLM למוצר עברי חדש ולהצדיק את הבחירה בפני הנהלה
כשצריך לענות על שאלות רכש של לקוח ארגוני לגבי ביצועים בעברית
כשאחרי שדרוג ספק צריך לבדוק אם היה שיפור או רגרסיה באיכות העברית
כשמאמתים מודל עברי שעשיתם לו fine-tuning מול baseline
כשמשווים בין ספקים על משימה ספציפית: הבנה, תרגום, סיכום, או ניקוד

נסו את הפרומפטים האלה

בחירת מודל סיכום

אנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.

רגרסיה אחרי שדרוג

Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.

בחירה בין Claude ל-Jamba

אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.

מודל מקומי מול ענן

יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?

שאלות נפוצות

יומן שינויים

v1.2.0

הוספת Gemini 3, Jamba 1.6 ו-Jamba-Reasoning-3B לרשימת המודלים, התאמת רשימות מודלים בין SKILL.md ל-scripts/run_eval.py, סימון טבלת ה-scorecard כ-placeholders ולא תוצאות מדודות, evidence.json.

20 במאי 2026

v1.1.0

HEBREW-MMLU, lm-evaluation-harness ו-inspect_ai, אומת DictaLM 2.0/3.0, Aya/Hebrew-Mistral/Hebrew-Gemma, claude-opus-4-7, תיקון שורת טבלה ב-HE, סעיף הוגנות tokenizer.

25 באפר׳ 2026

סקילס קשורים

השוואת עלויות ענן בישראל

מאומת·92

יוצר: skills-il

v1.3.0פופולרי

משווים עלויות ענן לסטארטאפים ומפתחים ישראליים: AWS תל אביב, Azure ישראל, GCP תל אביב, Oracle ירושלים וספקים מקומיים. כולל קרדיטים לסטארטאפים, תוכנית תל"ם של רשות החדשנות (Nebius B200) ותאימות לתיקון 13.

צ׳אט חי עם סקיל

4.0371,623

Claude CodeCursorGitHub Copilot+4

יועץ אגריטק ישראלי

אמין·79

יוצר: skills-il

v1.2.0פופולרי

מדריך מפתחים בשילוב כלי אגריטק ישראליים ופלטפורמות חקלאות מדויקת, כולל CropX (ניטור קרקע), Netafim GrowSphere (השקיה מבוססת IoT), Taranis (בינת גידולים), והאקוסיסטם הישראלי הרחב (כ-600-750 חברות לפי Start-Up Nation Central). השתמשו כשהמשתמש שואל על API של אגריטק, חקלאות מדויקת, השקיה חכמה, ניטור גידולים, זיהוי מזיקים, או צריך לבנות תוכנת ניהול חוות. הסקיל מכסה מיטוב השקיה, זיהוי מזיקים, שילוב נתוני אקלים, מקדמי גידול של מכון וולקני, ואת ההקשר החקלאי הישראלי (משטר Mekorot, שמיטה, אזורי גידול). לא מתאים לעצות גינון כלליות או פרויקטי IoT שאינם חקלאיים.

צ׳אט חי עם סקיל

0.0131,525

Claude CodeCursorGitHub Copilot+5

ממיר תאריכים עברי-לועזי

מאומת·94

יוצר: skills-il

v2.0.0פופולרי

ממירים בין תאריכים עבריים ולועזיים בכל הפורמטים.

צ׳אט חי עם סקיל

0.0891,871

Claude CodeCursorGitHub Copilot+6

מצאתם בעיה בסקיל הזה?

השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה

רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל

ביקורות (0)

אין ביקורות עדיין. כתבו את הביקורת הראשונה!

חבילת הערכת LLM בעברית

איך להשתמש בסקיל הזה

מתי להשתמש

נסו את הפרומפטים האלה

פרטים לסוכני AI ולמפתחים

ניתוח אבטחה

ציון איכות

נתוני ביצועים

שאלות נפוצות

למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

כמה דוגמאות צריך לכל בנצ'מרק?

כמה דוגמאות צריך לכל בנצ'מרק?

האם BLEU אמין לתרגום מעברית או אל עברית?

האם BLEU אמין לתרגום מעברית או אל עברית?

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

יומן שינויים

סקילס קשורים

השוואת עלויות ענן בישראל

יועץ אגריטק ישראלי

ממיר תאריכים עברי-לועזי

ביקורות (0)