by @skills-il
עיבוד שפה טבעית בעברית — ניתוח מורפולוגי, זיהוי ישויות ועוד
npx skills-il add skills-il/localization --skill hebrew-nlp-toolkit| משימה | מודל מומלץ | גודל | הערות |
|---|---|---|---|
| יצירת טקסט | DictaLM 3.0 (14B) | 14B | הטוב ביותר ליצירת טקסט בעברית |
| סיווג | DictaBERT | 110M | מהיר, דיוק טוב |
| זיהוי ישויות (NER) | DictaBERT-NER | 110M | אומן על מאגר NER בעברית |
| ניתוח סנטימנט | DictaBERT-Sentiment | 110M | סיווג סנטימנט בעברית |
| הטמעה/חיפוש | AlephBERT | 110M | מתאים למשימות דמיון |
| דיבור-לטקסט | ivrit.ai Whisper | משתנה | 22K+ שעות נתוני אימון |
| תרגום | DictaLM 3.0 (7B) | 7B | עברית מ/אל אנגלית |
| קריאת כלים | DictaLM 3.0 Chat | 7B/14B | תומך בקריאת פונקציות |
DictaBERT (משימות סיווג):
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("dicta-il/dictabert")
model = AutoModelForSequenceClassification.from_pretrained("dicta-il/dictabert")DictaLM 3.0 (יצירת טקסט):
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("dicta-il/dictalm-3.0-7b-chat")
model = AutoModelForCausalLM.from_pretrained("dicta-il/dictalm-3.0-7b-chat")ivrit.ai Whisper (דיבור-לטקסט):
import whisper
# Use ivrit.ai fine-tuned model
model = whisper.load_model("ivrit-ai/whisper-large-v3-he")לפני הזנת טקסט למודלים:
import re
import unicodedata
def preprocess_hebrew(text):
# Normalize Unicode
text = unicodedata.normalize('NFC', text)
# Remove niqqud (diacritics) - range U+0591 to U+05C7
text = re.sub(r'[\u0591-\u05C7]', '', text)
# Normalize whitespace
text = re.sub(r'\s+', ' ', text).strip()
return texthttps://huggingface.co/dicta-ilhttps://huggingface.co/ivrit-aihttps://huggingface.co/onlplab/alephbert-baseהמשתמש אומר: "אני צריך לסווג ביקורות לקוחות בעברית כחיוביות או שליליות" תוצאה: הדרכה לשימוש ב-DictaBERT-Sentiment עם כוונון עדין על נתוני תחום.
המשתמש אומר: "חלץ שמות חברות ואנשים ממאמרים בעברית" תוצאה: שימוש במודל DictaBERT-NER, הדגמה עם טקסט לדוגמה.
scripts/preprocess_hebrew.py — נרמול טקסט עברי לפני הזנה למודלי NLP (DictaBERT, DictaLM, AlephBERT). מטפל בנרמול Unicode NFC, הסרת ניקוד, ניקוי רווחים, הסרת כתובות URL, נרמול סמל השקל, ופיצול טקסט מעורב עברית-אנגלית. הרצה: python scripts/preprocess_hebrew.py --helpreferences/model-comparison.md — השוואה מפורטת בין מודלי NLP לעברית (DictaLM 3.0, DictaBERT, AlephBERT, ivrit.ai Whisper, Hebrew-Gemma) עם דרישות VRAM, מזהי HuggingFace, וטבלת מיפוי משימה-למודל. יש לעיין בו בעת בחירת מודל מתאים למשימת NLP בעברית ספציפית.סיבה: המורפולוגיה העברית מפצלת תחיליות (ב-, כ-, ל-, מ-, ש-, ו-) פתרון: זו התנהגות תקינה. מילים בעברית כמו "בבית" (in the house) מפוצלות למורפמות.
סיבה: DictaLM 14B דורש כ-28GB VRAM פתרון: שימוש בגרסת 7B או 1.7B, או קוונטיזציה עם bitsandbytes (4-bit).
סוכנים נתמכים
ציון אמון
הסקיל יכול להריץ סקריפטים ופקודות על המערכת שלך.
by @skills-il
תזמון משימות תוך התחשבות בשבתות, חגים ולוח השנה העברי
by @skills-il
כתיבה ועריכה של תוכן מקצועי בעברית תקנית ושוטפת
by @skills-il
הנחיות ותבניות ליצירת ממשקים עבריים עם תמיכה מלאה בכתיבה מימין לשמאל