ניווט במאגרי ML עבריים
אמין89/100נווטו את הנוף המפוצל של מאגרי ML ומודלים בעברית וביידיש: ivrit.ai (יותר מ-22 אלף שעות אודיו עברי, מודלי ASR של whisper-large-v3, מודלי יידיש), Dicta (משפחת DictaLM 3.0, וריאנטים של DictaBERT, HeQ), התכנית הלאומית ל-NLP (HebrewSentiment, HebNLI), AlephBERT, ומליאות הכנסת. עוזר לחוקרים ומהנדסי ML לבחור את הדאטהסט הנכון לפי משימה, רישיון (מסחרי או מחקר), כיסוי רגיסטר עברי, והתאמת דאטהסט למודל. השתמשו כשבוחרים נתוני אימון לפרויקט NLP או ASR עברי, מוודאים תאימות רישיון למוצר מסחרי, מחפשים baseline למשימה עברית, או בודקים משאבי ML ליידיש. אל תשתמשו למאגרי NLP ערבי, חיפוש כללי ב-HuggingFace Hub, או בחירת דאטהסט OCR עברי (hebrew-ocr-forms).
ציון אמינות 89/100 (אמין) · 15+ התקנות · 3 תורמים ב-GitHub · רישיון MIT
קהילת ה-ML הישראלית חזקה לגודלה, אבל המאגרים והמודלים מפוזרים. ivrit.ai מפרסמת קורפוסי דיבור עברי ברמה עולמית בארגון HuggingFace אחד, Dicta מפרסמת מודלי LLM ו-BERT עבריים בארגון אחר, התכנית הלאומית ל-NLP מתחזקת בנצ'מרקים תחת HebArabNlpProject. הרישיונות משתנים מידידותי-מסחרי-מלא עד מחקר-בלבד. חוקר שמנסה לבחור את השילוב הנכון ל-fine-tuning של סיווג סנטימנט על צ'אט תמיכה עברי למוצר מסחרי צריך לחפש בחמישה ארגונים ולקרוא כל dataset card.
npx skills-il add skills-il/developer-tools@v1.0.4-hebrew-ml-datasets-navigator --skill hebrew-ml-datasets-navigator -a claude-codeהתקנה דרך Claude.ai, Claude Desktop, ChatGPT, Manus ופלטפורמות נוספות
- 1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
- 2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
- 3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
- 4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.
מתי להשתמש
- כשבוחרים נתוני אימון לפרויקט NLP או ASR עברי
- כשצריך לוודא שהרישיון של דאטהסט מתאים לשימוש מסחרי
- כשמחפשים מודל baseline למשימה ספציפית בעברית
- כשבונים stack של תמלול עברי ורוצים לדעת מה ivrit.ai מציעה
- כשחוקרים או בונים משהו ביידיש ולא יודעים איפה למצוא משאבים
נסו את הפרומפטים האלה
אני רוצה לאמן מודל סיווג סנטימנט על צ'אט תמיכת לקוחות בעברית למוצר SaaS מסחרי. איזה דאטהסט להשתמש, איזה מודל התחלתי, ומה הרישיון אומר לגבי ייחוס?
אני בונה מוצר תמלול פודקאסטים בעברית. מה ivrit.ai מציעה, איזה מודל ASR להשתמש בפרודקשן עם latency נמוך, ואיך אני מטפל במספר דוברים?
צריך LLM עברי שרץ על חומרת צרכן (לא יותר מ-16GB VRAM) למוצר עברי. מה Dicta מציעה, מה ההבדלים בין הגדלים, ומה הרישיונות של ה-upstream?
אני חוקר יידיש ומחפש דאטהסטים ומודלים לזיהוי דיבור ולעיבוד טקסט. מה זמין ב-2026 ומה הרישיונות?
שאלות נפוצות
יומן שינויים
הוספת Jamba 1.6 ו-Jamba-Reasoning-3B לקטלוג המודלים, הכרה בחבילת הבנצ'מרקים של DictaLM 3.0 (תרגום, תמצות, Winograd, טריוויה ישראלית, ניקוד), והפניית טענות הרישיון של HebrewSentiment לכרטיס הנתונים החי.
19 במאי 2026
הוספת HEBREW-MMLU, CulturaX, FineWeb-2, ParaShoot, HeSum, משאבים אקדמיים. הסרת 27 em dashes.
25 באפר׳ 2026
תיקון תוכן: סקריפט find_dataset.py מתאים עכשיו לקטלוג ב-markdown — נוספו דאטהסטים לתרגום (NeuLabs-TedTalks, OPUS-100, MADLAD-400) וקורפוסים נוספים של Dicta.
13 באפר׳ 2026
סקילס קשורים
שיטות עבודה להפקת וידאו מקוד עם HyperFrames: קומפוזיציות שהן פשוט HTML + GSAP שמתרנדרות ל-MP4, עם תמיכה מלאה בעברית ו-RTL. הסקיל מסביר איך כותבים קומפוזיציה, מה עושים מאפייני data-* לתזמון, איך עובדים עם ה-Timeline של GSAP ושיטת Layout-Before-Animation, איך מטפלים ב-Visual Identity Gate, איך לטעון פונטים עבריים (Heebo, Rubik, Assistant) בלי `<link>` או `@import`, איפה שמים dir="rtl", איך מפיקים כתוביות עברית עם Whisper ומתמודדים עם קריינות בעברית כש-Kokoro המובנה לא תומך, איך להוסיף אפקטים שמגיבים לאודיו ומעברי סצנות, ואיך לעטוף טקסט מעורב עברית+אנגלית ב-<bdi>. מתאים לבניית תוכן וידאו מבוסס-HTML וסרטוני סושיאל ושיווק בעברית בלי React. לא מתאים ל-Remotion או לעבודת וידאו ב-React, שם השתמשו ב-remotion-best-practices.
בונים תרחישי Make.com לתהליכים עסקיים ישראליים: סנכרון Morning (חשבונית ירוקה), iCount, Monday.com, Priority ERP, שערי תשלום (Cardcom, Tranzila, Grow, Bit) ו-WhatsApp Business. מכסה AI Agents של Make.com, שרת ה-MCP של Make.com לחשיפת תרחישים ככלי סוכן, רפורמת חשבוניות 2026, מודולים קהילתיים ישראליים, טיפול בטקסט עברי, Data Store לתקופות מע"מ ותזמון שמתחשב בשבת. לא לשימוש ב-n8n (תשתמשו ב-n8n-hebrew-workflows) או Zapier (תשתמשו ב-zapier-israeli-integrations).
מדריך מעשי להקמת סטארטאפ בישראל ב-2026: רישום חברה בע"מ (אגרה 2,614 ש"ח, אגרה שנתית 1,338/1,777 ש"ח), בחירת תוכנית רשות החדשנות (תנופה עד 200 אלף ש"ח, קרן מו"פ, BIRD, יוזמה 2.0), הסכמי SAFE ושטר המיר, הקמת תוכנית 102 (תקופת החזקה 24 חודשים מתום שנת המס של ההענקה, מס רווח הון 25%), מעמד מפעל טכנולוגי מועדף (12% / 7.5%), והחלטה על Delaware Flip. השתמשו כשמשתמש שואל על רישום חברה, מענקים, השקעות, אופציות לעובדים או היערכות לדלאוור. אל תשתמשו לייעוץ מס בארה"ב או למבני חברה לא ישראליים. תמיד להמליץ על עורך דין ורואה חשבון ישראלים.
השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה
רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל