למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

כי אקזקט מאצ'ינג על עברית שביר מאוד בגלל צורות סופית, ניקוד, ושינויים ברווחים. גם תשובות נכונות מקבלות ציון 0 ב-EM ללא נרמול. F1 על שורות נורמליזציה הוא המטריקה האמינה.

כמה דוגמאות צריך לכל בנצ'מרק?

מינימום 500, רצוי 1000+. בנצ'מרקים קטנים כמו Hebrew Winograd עם פחות מ-300 פריטים דורשים מספר ריצות (לפחות 3) כדי לקבל הערכה אמינה עם סטיית תקן.

האם BLEU אמין לתרגום מעברית או אל עברית?

לא לבד. המורפולוגיה העשירה של עברית גורמת ל-BLEU להמעיט בהערכה. דווחו תמיד גם chrF, ובדקו ידנית דגימה של התוצאות הנמוכות.

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

או שתשתמשו ב-few-shot prompting על שניהם, או שתשתמשו בגרסאות ה-Instruct של DictaLM (למשל DictaLM-3.0-Nemotron-12B-Instruct). השוואה zero-shot של chat prompt מול מודל בסיס מפלה את מודל הבסיס.

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

לוגגו את מחרוזת הגרסה המדויקת שה-API מחזיר (claude-opus-4-6-20251001, לא רק claude-opus-4-6). שמרו scorecard לכל גרסה. הריצו שוב בכל שדרוג גדול. ההשוואה בין הגרסאות היא הרגרסיה.

חבילת הערכת LLM בעברית

אמין71/100

לפני שמחליטים האם להתקין, צ׳אט חי עם סקיל

בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.

הבעיה

צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.

skills-il כלי פיתוח|60התקנות2,968צפיות

0כתיבת ביקורת

1.2.0MITGitHub

60התקנות2,968צפיות

0כתיבת ביקורת

עודכן: 30 ביולי 2026|תגיות:הערכת-llm בנצ'מרק עברית HeQ DictaLM AI21-Jamba Claude GPT ml ישראל

איך להשתמש בסקיל הזה

לא בטוחים איך? קראו את המדריך

1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.

יצאה גרסה חדשה? איך מעדכנים את הסקיל שהתקנתם

מפתחים? התקנה דרך שורת הפקודה (CLI)

npx skills-il add skills-il/developer-tools@v1.2.0-hebrew-llm-eval-suite --skill hebrew-llm-eval-suite -a claude-code

מתי להשתמש

כשצריך לבחור LLM למוצר עברי חדש ולהצדיק את הבחירה בפני הנהלה
כשצריך לענות על שאלות רכש של לקוח ארגוני לגבי ביצועים בעברית
כשאחרי שדרוג ספק צריך לבדוק אם היה שיפור או רגרסיה באיכות העברית
כשמאמתים מודל עברי שעשיתם לו fine-tuning מול baseline
כשמשווים בין ספקים על משימה ספציפית: הבנה, תרגום, סיכום, או ניקוד

נסו את הפרומפטים האלה

בחירת מודל סיכום

אנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.

רגרסיה אחרי שדרוג

Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.

בחירה בין Claude ל-Jamba

אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.

מודל מקומי מול ענן

יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?

שאלות נפוצות

יומן שינויים

v1.2.0

הוספת Gemini 3, Jamba 1.6 ו-Jamba-Reasoning-3B לרשימת המודלים, התאמת רשימות מודלים בין SKILL.md ל-scripts/run_eval.py, סימון טבלת ה-scorecard כ-placeholders ולא תוצאות מדודות, evidence.json.

20 במאי 2026

v1.1.0

HEBREW-MMLU, lm-evaluation-harness ו-inspect_ai, אומת DictaLM 2.0/3.0, Aya/Hebrew-Mistral/Hebrew-Gemma, claude-opus-4-7, תיקון שורת טבלה ב-HE, סעיף הוגנות tokenizer.

25 באפר׳ 2026

סקילס קשורים

Base44 SDK

אמין·76

יוצר: base44

v1.0.0פופולרי

ה-SDK של Base44 הוא הספרייה לתקשורת עם שירותי Base44. בפרויקטים אתם משתמשים בו כדי לתקשר עם משאבים מרוחקים (entities, backend functions, AI agents) וכדי לכתוב backend functions. ה-skill הזה הוא המקום ללמוד על המודולים והטיפוסים הזמינים. כאשר אתם מתכננים או מיישמים פיצ'ר, אתם חייבים ללמוד את ה-skill הזה

צ׳אט חי עם סקיל

0.0791,892

Claude CodeCursorGitHub Copilot+10

אוטומציות Make.com לישראל

אמין·74

יוצר: skills-il

v2.2.1פופולרי

בונים תרחישי Make.com לתהליכים עסקיים ישראליים: סנכרון Morning (חשבונית ירוקה), iCount, Monday.com, Priority ERP, שערי תשלום (Cardcom, Tranzila, Grow, Bit) ו-WhatsApp Business. מכסה AI Agents של Make.com, שרת ה-MCP של Make.com לחשיפת תרחישים ככלי סוכן, רפורמת חשבוניות 2026, מודולים קהילתיים ישראליים, טיפול בטקסט עברי, Data Store לתקופות מע"מ ותזמון שמתחשב בשבת. לא לשימוש ב-n8n (תשתמשו ב-n8n-hebrew-workflows) או Zapier (תשתמשו ב-zapier-israeli-integrations).

צ׳אט חי עם סקיל

0.01302,407

Claude CodeCursorGitHub Copilot+4

ממיר תאריכים עברי-לועזי

אמין·89

יוצר: skills-il

v2.0.0פופולרי

ממירים בין תאריכים עבריים ולועזיים בכל הפורמטים.

צ׳אט חי עם סקיל

0.0971,958

Claude CodeCursorGitHub Copilot+6

מצאתם בעיה בסקיל הזה?

השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה

רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל

ביקורות (0)

אין ביקורות עדיין. כתבו את הביקורת הראשונה!

חבילת הערכת LLM בעברית

איך להשתמש בסקיל הזה

מתי להשתמש

נסו את הפרומפטים האלה

פרטים לסוכני AI ולמפתחים

ניתוח אבטחה

ציון איכות

נתוני ביצועים

שאלות נפוצות

למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

כמה דוגמאות צריך לכל בנצ'מרק?

כמה דוגמאות צריך לכל בנצ'מרק?

האם BLEU אמין לתרגום מעברית או אל עברית?

האם BLEU אמין לתרגום מעברית או אל עברית?

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

יומן שינויים

סקילס קשורים

Base44 SDK

אוטומציות Make.com לישראל

ממיר תאריכים עברי-לועזי

ביקורות (0)