קורפוס השפה העברית - תיוג מורפולוגי

Name: קורפוס השפה העברית - תיוג מורפולוגי
Creator: מערך הדיגיטל הלאומי
License: אחר (פתוח)

עברית קורפוס NLP תיוג מורפולוגי בלשנות חישובית

תקציר

קורפוס השפה העברית המתויגת הוא מאגר לשוני בתבנית CoNLL-U, הנוצר בשיתוף פעולה בין מערך הדיגיטל הלאומי והאקדמיה ללשון העברית. המאגר מכיל כ-480 אלף מילים מנותחות מורפולוגית — כל מילה מלווה בצורת שורש (לֶמָּה), קטגוריה תחבירית אוניברסלית (U-POS) ומאפיינים מפורטים כגון מין, מספר, גוף ומשקל פועל (HebBinyan). הטקסטים מגיעים מ-13 תחומים ממשלתיים שונים ומיועדים לפיתוח כלי עיבוד שפה טבעית לעברית.

643,505

שורות במאגר

480,361

מילים מנותחות

1,411

מסמכים בקורפוס

תחומים ממשלתיים

תובנות עיקריות

שם עצם הוא חלק הדיבור הנפוץ ביותר: 150,691 מופעים — 31.4% מכלל המילים המנותחות. תופעה טיפוסית של שפה ממשלתית-מקצועית, שבה שמות עצם עוגנים את הדיון יותר מפעלים.
כ-45% מהמסמכים בקורפוס מגיעים ממשרד החקלאות (641 מסמכים), ו-17.4% מבנק ישראל (246 מסמכים) — הקורפוס מכסה בעיקר שפה ממשלתית-מוסדית בשלב זה.
76.7% מהטקסטים לקוחים מאתרי אינטרנט ממשלתיים, 12% הם תקצירי מחקר, ו-9.1% מגיעים ממערכות מידע ממוחשבות.
המאפיינים המורפולוגיים הנפוצים ביותר הם מין דקדוקי (Gender) ומספר דקדוקי (Number) — כל אחד מהם מופיע בכ-33% מהמילים במדגם. מבנה הפועל העברי (HebBinyan) מתויג ב-7% מהמילים במדגם.
מתוך 643,505 שורות כוללות, כ-163,144 הן כותרות משפטים ואסימונים מורכבים (תבנית CoNLL-U) — יתרת 480,361 הן אסימונים בעלי ניתוח מלא.

התפלגות חלקי הדיבור (U-POS)

מספר מופעים לכל קטגוריה תחבירית אוניברסלית, מתוך 480,361 מילים מנותחות.

מסמכים לפי תחום ממשלתי

1,411 מסמכים מ-13 תחומים (ציר X בסולם לוגריתמי).

סוג טקסט במסמכים

התפלגות 1,402 מסמכים לפי סוג הטקסט.

מאפיינים מורפולוגיים נפוצים

מספר מופעים לכל מפתח מאפיין במדגם של 5,000 שורות (מתוך הקורפוס המלא).

עיון בנתוני הקורפוס

ניתן לחפש לפי צורת מילה (FORM) או שורש (LEMMA). שורות עם תא ריק בצורת המילה הן כותרות משפטים בתבנית CoNLL-U.

תיאור מקורי

מאגר עברית מתויגת, חלק ממיזם קורפוס השפה העברית של מערך הדיגיטל הלאומי והאקדמיה ללשון העברית. המאגר יורחב בשנים הקרובות עם התקדמות המיזם.