[{"data":1,"prerenderedAt":36},["ShallowReactive",2],{"dataset-52375644-64a6-4701-bac5-ffe581de8b2e":3},{"entry":4,"body":35},{"id":5,"slug":5,"title":6,"organization":7,"organization_slug":8,"tags_he":9,"primary_resource_id":15,"formats":16,"metadata_modified":18,"license":19,"record_count":20,"resources":21,"last_analyzed_at":30,"version":31,"summary_he":32,"dataset_kind":33,"related_ids":34},"52375644-64a6-4701-bac5-ffe581de8b2e","קורפוס השפה העברית - תיוג מורפולוגי","מערך הדיגיטל הלאומי","cio",[10,11,12,13,14],"hebrew","nlp","עברית","קורפוס","שפה","10a77ebc-5992-4a5d-b65c-e3a6932d9a0f",[17],"CSV","2025-10-21T17:07:04.653589Z","אחר (פתוח)",643505,[22,26],{"url":23,"format":17,"name":24,"size_bytes":25},"https:\u002F\u002Fdata.gov.il\u002Fdataset\u002F52375644-64a6-4701-bac5-ffe581de8b2e\u002Fresource\u002F10a77ebc-5992-4a5d-b65c-e3a6932d9a0f\u002Fdownload\u002Fmorphologicaltagging_v_7.csv","חבילת תיוג",34082594,{"url":27,"format":17,"name":28,"size_bytes":29},"https:\u002F\u002Fdata.gov.il\u002Fdataset\u002F52375644-64a6-4701-bac5-ffe581de8b2e\u002Fresource\u002F3b7b5db5-4198-4499-9a6c-568f9b3d154e\u002Fdownload\u002Fmetadata.csv","מטא-נתונים",141397,"2026-05-06T15:14:42.485956Z",1,"קורפוס עברית מתויגת בתבנית CoNLL-U עם כ-480 אלף מילים מנותחות מורפולוגית מ-13 תחומים ממשלתיים, הכולל שורש, קטגוריה תחבירית ומאפייני מין, מספר ומשקל פועל.","registry",[],"\u003C!-- tag chips -->\n\u003Ch1>קורפוס השפה העברית - תיוג מורפולוגי\u003C\u002Fh1>\n\u003Cdiv class=\"flex flex-wrap gap-2 mb-6\">\n  \u003Cspan class=\"tag-chip\">עברית\u003C\u002Fspan>\n  \u003Cspan class=\"tag-chip\">קורפוס\u003C\u002Fspan>\n  \u003Cspan class=\"tag-chip\">NLP\u003C\u002Fspan>\n  \u003Cspan class=\"tag-chip\">תיוג מורפולוגי\u003C\u002Fspan>\n  \u003Cspan class=\"tag-chip\">בלשנות חישובית\u003C\u002Fspan>\n\u003C\u002Fdiv>\n\n\u003C!-- AI summary -->\n\u003Csection class=\"card p-5 mb-6\">\n  \u003Cdiv class=\"flex items-center gap-2 mb-3 text-brand\">\n    \u003Cimg src=\"\u002Ficons\u002Finfo.svg\" alt=\"\" class=\"w-5 h-5\" \u002F>\n    \u003Ch2 class=\"m-0 text-lg font-semibold text-ink-deep\">תקציר\u003C\u002Fh2>\n  \u003C\u002Fdiv>\n  \u003Cp class=\"m-0 text-subtle leading-relaxed\">קורפוס השפה העברית המתויגת הוא מאגר לשוני בתבנית CoNLL-U, הנוצר בשיתוף פעולה בין מערך הדיגיטל הלאומי והאקדמיה ללשון העברית. המאגר מכיל כ-480 אלף מילים מנותחות מורפולוגית — כל מילה מלווה בצורת שורש (לֶמָּה), קטגוריה תחבירית אוניברסלית (U-POS) ומאפיינים מפורטים כגון מין, מספר, גוף ומשקל פועל (HebBinyan). הטקסטים מגיעים מ-13 תחומים ממשלתיים שונים ומיועדים לפיתוח כלי עיבוד שפה טבעית לעברית.\u003C\u002Fp>\n\u003C\u002Fsection>\n\n\u003C!-- KPI grid -->\n\u003Cdiv class=\"grid grid-cols-2 md:grid-cols-4 gap-4 mb-6\">\n  \u003Cdiv class=\"card p-4 text-center\">\n    \u003Cdiv class=\"text-3xl font-bold text-brand mb-1\">643,505\u003C\u002Fdiv>\n    \u003Cdiv class=\"text-sm text-subtle\">שורות במאגר\u003C\u002Fdiv>\n  \u003C\u002Fdiv>\n  \u003Cdiv class=\"card p-4 text-center\">\n    \u003Cdiv class=\"text-3xl font-bold text-ok mb-1\">480,361\u003C\u002Fdiv>\n    \u003Cdiv class=\"text-sm text-subtle\">מילים מנותחות\u003C\u002Fdiv>\n  \u003C\u002Fdiv>\n  \u003Cdiv class=\"card p-4 text-center\">\n    \u003Cdiv class=\"text-3xl font-bold text-brand mb-1\">1,411\u003C\u002Fdiv>\n    \u003Cdiv class=\"text-sm text-subtle\">מסמכים בקורפוס\u003C\u002Fdiv>\n  \u003C\u002Fdiv>\n  \u003Cdiv class=\"card p-4 text-center\">\n    \u003Cdiv class=\"text-3xl font-bold text-brand mb-1\">13\u003C\u002Fdiv>\n    \u003Cdiv class=\"text-sm text-subtle\">תחומים ממשלתיים\u003C\u002Fdiv>\n  \u003C\u002Fdiv>\n\u003C\u002Fdiv>\n\n\u003C!-- Insights -->\n\u003Csection class=\"card p-5 mb-6\">\n  \u003Cdiv class=\"flex items-center gap-2 mb-3 text-brand\">\n    \u003Cimg src=\"\u002Ficons\u002Fcircle-check.svg\" alt=\"\" class=\"w-5 h-5\" \u002F>\n    \u003Ch2 class=\"m-0 text-lg font-semibold text-ink-deep\">תובנות עיקריות\u003C\u002Fh2>\n  \u003C\u002Fdiv>\n  \u003Cul class=\"list-disc ps-5 m-0 space-y-2 text-sm marker:text-brand\">\n    \u003Cli>שם עצם הוא חלק הדיבור הנפוץ ביותר: 150,691 מופעים — 31.4% מכלל המילים המנותחות. תופעה טיפוסית של שפה ממשלתית-מקצועית, שבה שמות עצם עוגנים את הדיון יותר מפעלים.\u003C\u002Fli>\n    \u003Cli>כ-45% מהמסמכים בקורפוס מגיעים ממשרד החקלאות (641 מסמכים), ו-17.4% מבנק ישראל (246 מסמכים) — הקורפוס מכסה בעיקר שפה ממשלתית-מוסדית בשלב זה.\u003C\u002Fli>\n    \u003Cli>76.7% מהטקסטים לקוחים מאתרי אינטרנט ממשלתיים, 12% הם תקצירי מחקר, ו-9.1% מגיעים ממערכות מידע ממוחשבות.\u003C\u002Fli>\n    \u003Cli>המאפיינים המורפולוגיים הנפוצים ביותר הם מין דקדוקי (Gender) ומספר דקדוקי (Number) — כל אחד מהם מופיע בכ-33% מהמילים במדגם. מבנה הפועל העברי (HebBinyan) מתויג ב-7% מהמילים במדגם.\u003C\u002Fli>\n    \u003Cli>מתוך 643,505 שורות כוללות, כ-163,144 הן כותרות משפטים ואסימונים מורכבים (תבנית CoNLL-U) — יתרת 480,361 הן אסימונים בעלי ניתוח מלא.\u003C\u002Fli>\n  \u003C\u002Ful>\n\u003C\u002Fsection>\n\n\u003C!-- POS distribution chart -->\n\u003Csection class=\"card p-5 mb-6\">\n  \u003Cdiv class=\"flex items-center gap-2 mb-3 text-brand\">\n    \u003Cimg src=\"\u002Ficons\u002Fdatabase.svg\" alt=\"\" class=\"w-5 h-5\" \u002F>\n    \u003Ch2 class=\"m-0 text-lg font-semibold text-ink-deep\">התפלגות חלקי הדיבור (U-POS)\u003C\u002Fh2>\n  \u003C\u002Fdiv>\n  \u003Cp class=\"text-sm text-subtle mb-3\">מספר מופעים לכל קטגוריה תחבירית אוניברסלית, מתוך 480,361 מילים מנותחות.\u003C\u002Fp>\n  \u003Cdiv id=\"chart-pos\" class=\"h-80 md:h-[480px]\">\u003C\u002Fdiv>\n\u003C\u002Fsection>\n\n\u003C!-- Domain + TextType in two columns -->\n\u003Cdiv class=\"grid grid-cols-1 md:grid-cols-2 gap-5 mb-6\">\n  \u003Cdiv class=\"card p-5\">\n    \u003Ch2 class=\"m-0 mb-3 text-base font-semibold text-ink-deep\">מסמכים לפי תחום ממשלתי\u003C\u002Fh2>\n    \u003Cp class=\"text-sm text-subtle mb-2\">1,411 מסמכים מ-13 תחומים (ציר X בסולם לוגריתמי).\u003C\u002Fp>\n    \u003Cdiv id=\"chart-domain\" class=\"h-72 md:h-80\">\u003C\u002Fdiv>\n  \u003C\u002Fdiv>\n  \u003Cdiv class=\"card p-5\">\n    \u003Ch2 class=\"m-0 mb-3 text-base font-semibold text-ink-deep\">סוג טקסט במסמכים\u003C\u002Fh2>\n    \u003Cp class=\"text-sm text-subtle mb-2\">התפלגות 1,402 מסמכים לפי סוג הטקסט.\u003C\u002Fp>\n    \u003Cdiv id=\"chart-type\" class=\"h-72 md:h-80\">\u003C\u002Fdiv>\n  \u003C\u002Fdiv>\n\u003C\u002Fdiv>\n\n\u003C!-- Morphological features chart -->\n\u003Csection class=\"card p-5 mb-6\">\n  \u003Cdiv class=\"flex items-center gap-2 mb-3 text-brand\">\n    \u003Cimg src=\"\u002Ficons\u002Ftag.svg\" alt=\"\" class=\"w-5 h-5\" \u002F>\n    \u003Ch2 class=\"m-0 text-lg font-semibold text-ink-deep\">מאפיינים מורפולוגיים נפוצים\u003C\u002Fh2>\n  \u003C\u002Fdiv>\n  \u003Cp class=\"text-sm text-subtle mb-3\">מספר מופעים לכל מפתח מאפיין במדגם של 5,000 שורות (מתוך הקורפוס המלא).\u003C\u002Fp>\n  \u003Cdiv id=\"chart-feats\" class=\"h-64 md:h-72\">\u003C\u002Fdiv>\n\u003C\u002Fsection>\n\n\u003C!-- GovExplorer -->\n\u003Csection class=\"card p-5 mb-6\">\n  \u003Cdiv class=\"flex flex-wrap items-center justify-between gap-3 mb-3\">\n    \u003Cdiv class=\"flex items-center gap-2 text-brand\">\n      \u003Cimg src=\"\u002Ficons\u002Fsearch.svg\" alt=\"\" class=\"w-5 h-5\" \u002F>\n      \u003Ch2 class=\"m-0 text-lg font-semibold text-ink-deep\">עיון בנתוני הקורפוס\u003C\u002Fh2>\n    \u003C\u002Fdiv>\n    \u003Cinput id=\"explorer-search\" class=\"gov-explorer-search\"\n           type=\"search\" placeholder=\"חיפוש לפי צורת מילה או שורש...\"\n           aria-label=\"חיפוש בטבלת הקורפוס\" \u002F>\n  \u003C\u002Fdiv>\n  \u003Cp class=\"text-sm text-subtle mb-3\">ניתן לחפש לפי צורת מילה (FORM) או שורש (LEMMA). שורות עם תא ריק בצורת המילה הן כותרות משפטים בתבנית CoNLL-U.\u003C\u002Fp>\n  \u003Cdiv id=\"explorer\">\u003C\u002Fdiv>\n\u003C\u002Fsection>\n\n\u003C!-- Original notes -->\n\u003Csection class=\"card p-5 mb-6\">\n  \u003Cdiv class=\"flex items-center gap-2 mb-3 text-brand\">\n    \u003Cimg src=\"\u002Ficons\u002Flist.svg\" alt=\"\" class=\"w-5 h-5\" \u002F>\n    \u003Ch2 class=\"m-0 text-lg font-semibold text-ink-deep\">תיאור מקורי\u003C\u002Fh2>\n  \u003C\u002Fdiv>\n  \u003Cp class=\"m-0 text-sm text-subtle whitespace-pre-line\">מאגר עברית מתויגת, חלק ממיזם קורפוס השפה העברית של מערך הדיגיטל הלאומי והאקדמיה ללשון העברית.\nהמאגר יורחב בשנים הקרובות עם התקדמות המיזם.\u003C\u002Fp>\n\u003C\u002Fsection>\n\n\u003Cscript>\n  const GOVIL_PALETTE = [\n    '#0068f5', '#0b3668', '#6c9fd8', '#0053c4', '#0c3058',\n    '#3d70b0', '#b7d2f7', '#2658a0', '#dbe8fb', '#0c1f3d'\n  ];\n\n  const baseECharts = {\n    color: GOVIL_PALETTE,\n    textStyle: { fontFamily: 'Rubik, sans-serif', color: '#0c3058' },\n    tooltip: {\n      textStyle: { fontFamily: 'Rubik', color: '#0c3058' },\n      backgroundColor: '#fff',\n      borderColor: '#c3cfe7',\n      extraCssText: 'direction: rtl; box-shadow: 0 6px 24px -8px rgba(0,104,245,.18);'\n    },\n    grid: { left: 48, right: 64, top: 40, bottom: 48, containLabel: true },\n  };\n\n  \u002F\u002F ── Chart 1: POS distribution ──────────────────────────────────────────\n  const posLabels = [\n    \"קריאת ביניים\", \"אחר\", \"סמל\", \"פועל עזר\", \"מילית\",\n    \"שם עצם פרטי\", \"תואר הפועל\", \"מספר\", \"כפיפה\", \"כינוי גוף\",\n    \"מילת קישור\", \"שם תואר\", \"פועל\", \"פיסוק\", \"מגדיר\",\n    \"מילת יחס\", \"שם עצם\"\n  ];\n  const posRaw = [59, 96, 1176, 1431, 1864, 4793, 8059, 9910, 13089, 13588, 17819, 31472, 33960, 50956, 61558, 79840, 150691];\n  const posData = posRaw.map((v, i) =>\n    i === posRaw.length - 1\n      ? { value: v, itemStyle: { color: '#0b3668' } }\n      : v\n  );\n\n  const chartPos = echarts.init(document.getElementById('chart-pos'));\n  chartPos.setOption(Object.assign({}, baseECharts, {\n    tooltip: Object.assign({}, baseECharts.tooltip, {\n      formatter: p => {\n        const v = typeof p.value === \"object\" ? p.value.value : p.value;\n        return p.name + \": \u003Cstrong>\" + v.toLocaleString(\"he-IL\") + \"\u003C\u002Fstrong> מילים\";\n      }\n    }),\n    grid: { left: 16, right: 80, top: 16, bottom: 16, containLabel: true },\n    xAxis: { type: 'value', axisLabel: { fontFamily: 'Rubik', formatter: v => v >= 1000 ? (v \u002F 1000).toFixed(0) + 'K' : v } },\n    yAxis: { type: 'category', data: posLabels, axisLabel: { fontFamily: 'Rubik', color: '#0c3058', fontSize: 12 } },\n    series: [{\n      type: 'bar',\n      data: posData,\n      barMaxWidth: 32,\n      label: {\n        show: true,\n        position: 'right',\n        fontFamily: 'Rubik',\n        color: '#0c3058',\n        fontSize: 11,\n        formatter: p => {\n          const v = typeof p.value === 'object' ? p.value.value : p.value;\n          return v >= 1000 ? (v \u002F 1000).toFixed(0) + 'K' : v;\n        }\n      }\n    }]\n  }));\n  window.addEventListener('resize', () => chartPos.resize());\n\n  \u002F\u002F ── Chart 2: Domain distribution (log scale) ──────────────────────────\n  const domainLabels = [\n    \"אחרים (3)\", \"שיפור השירות הממשלתי\", \"משרד המשפטים\", \"משרד התחבורה\",\n    \"המשרד להגנת הסביבה\", \"משרד העלייה והקליטה\", \"הכנסת\",\n    \"רשות התקשוב הממשלתי\", \"משרד המדע\", \"בנק ישראל\", \"משרד החקלאות\"\n  ];\n  const domainRaw = [3, 15, 15, 16, 27, 62, 102, 114, 170, 246, 641];\n  const domainData = domainRaw.map((v, i) =>\n    i === domainRaw.length - 1\n      ? { value: v, itemStyle: { color: '#0b3668' } }\n      : v\n  );\n\n  const chartDomain = echarts.init(document.getElementById('chart-domain'));\n  chartDomain.setOption(Object.assign({}, baseECharts, {\n    tooltip: Object.assign({}, baseECharts.tooltip, {\n      formatter: p => {\n        const v = typeof p.value === \"object\" ? p.value.value : p.value;\n        return p.name + \": \u003Cstrong>\" + v + \"\u003C\u002Fstrong> מסמכים\";\n      }\n    }),\n    grid: { left: 8, right: 56, top: 8, bottom: 8, containLabel: true },\n    xAxis: { type: 'log', axisLabel: { fontFamily: 'Rubik', formatter: v => v } },\n    yAxis: { type: 'category', data: domainLabels, axisLabel: { fontFamily: 'Rubik', color: '#0c3058', fontSize: 11 } },\n    series: [{\n      type: 'bar',\n      data: domainData,\n      barMaxWidth: 24,\n      label: {\n        show: true,\n        position: 'right',\n        fontFamily: 'Rubik',\n        color: '#0c3058',\n        fontSize: 11,\n        formatter: p => typeof p.value === \"object\" ? p.value.value : p.value\n      }\n    }]\n  }));\n  window.addEventListener('resize', () => chartDomain.resize());\n\n  \u002F\u002F ── Chart 3: Text type donut ──────────────────────────────────────────\n  const typeData = [\n    { value: 1082, name: \"אתר אינטרנט\" },\n    { value: 169,  name: \"תקציר מחקר\" },\n    { value: 129,  name: \"מערכת מידע ממוחשבת\" },\n    { value: 22,   name: \"אחר\" },\n  ];\n\n  const chartType = echarts.init(document.getElementById('chart-type'));\n  chartType.setOption(Object.assign({}, baseECharts, {\n    tooltip: Object.assign({}, baseECharts.tooltip, {\n      trigger: 'item',\n      formatter: p => p.name + \": \u003Cstrong>\" + p.value + \"\u003C\u002Fstrong> (\" + p.percent + \"%)\"\n    }),\n    legend: {\n      orient: 'horizontal',\n      bottom: 8,\n      textStyle: { fontFamily: 'Rubik', color: '#0c3058', fontSize: 11 }\n    },\n    series: [{\n      type: 'pie',\n      radius: ['38%', '68%'],\n      center: ['50%', '44%'],\n      data: typeData,\n      label: {\n        show: false\n      },\n      emphasis: {\n        itemStyle: { shadowBlur: 10, shadowColor: 'rgba(0,104,245,.25)' }\n      }\n    }]\n  }));\n  window.addEventListener('resize', () => chartType.resize());\n\n  \u002F\u002F ── Chart 4: Morphological feature keys (from sample) ────────────────\n  const featHe = {\n    \"Gender\":    \"מין דקדוקי\",\n    \"Number\":    \"מספר דקדוקי\",\n    \"Definite\":  \"ניתוח מגדיר\",\n    \"PronType\":  \"סוג כינוי\",\n    \"HebBinyan\": \"בניין (HebBinyan)\",\n    \"Voice\":     \"גוף הפועל\",\n    \"VerbForm\":  \"צורת פועל\",\n    \"Person\":    \"גוף (Person)\",\n    \"Tense\":     \"זמן\",\n    \"Case\":      \"יחסה\"\n  };\n\n  const featKeys = [\"Case\", \"Tense\", \"Person\", \"VerbForm\", \"Voice\", \"HebBinyan\", \"PronType\", \"Definite\", \"Number\", \"Gender\"];\n  const featLabels = featKeys.map(k => featHe[k] || k);\n  const featVals = [89, 105, 178, 239, 297, 345, 685, 890, 1649, 1657];\n\n  const chartFeats = echarts.init(document.getElementById('chart-feats'));\n  chartFeats.setOption(Object.assign({}, baseECharts, {\n    tooltip: Object.assign({}, baseECharts.tooltip, {\n      formatter: p => p.name + \": \u003Cstrong>\" + p.value + \"\u003C\u002Fstrong> מופעים במדגם\"\n    }),\n    grid: { left: 8, right: 72, top: 8, bottom: 8, containLabel: true },\n    xAxis: { type: 'value', axisLabel: { fontFamily: 'Rubik' } },\n    yAxis: { type: 'category', data: featLabels, axisLabel: { fontFamily: 'Rubik', color: '#0c3058', fontSize: 12 } },\n    series: [{\n      type: 'bar',\n      data: featVals,\n      barMaxWidth: 28,\n      label: {\n        show: true,\n        position: 'right',\n        fontFamily: 'Rubik',\n        color: '#0c3058',\n        fontSize: 11,\n        formatter: p => p.value\n      }\n    }]\n  }));\n  window.addEventListener('resize', () => chartFeats.resize());\n\n  \u002F\u002F ── GovExplorer ───────────────────────────────────────────────────────\n  const posHeMap = {\n    \"NOUN\": \"שם עצם\", \"ADP\": \"מילת יחס\", \"DET\": \"מגדיר\",\n    \"PUNCT\": \"פיסוק\", \"VERB\": \"פועל\", \"ADJ\": \"שם תואר\",\n    \"CCONJ\": \"מילת קישור\", \"PRON\": \"כינוי\", \"SCONJ\": \"כפיפה\",\n    \"NUM\": \"מספר\", \"ADV\": \"תואר\", \"PROPN\": \"שם פרטי\",\n    \"PART\": \"מילית\", \"AUX\": \"פועל עזר\", \"SYM\": \"סמל\",\n    \"INTJ\": \"קריאה\", \"X\": \"אחר\", \"_\": \"\"\n  };\n\n  GovExplorer.create({\n    container:    \"#explorer\",\n    searchInput:  \"#explorer-search\",\n    resourceId:   \"10a77ebc-5992-4a5d-b65c-e3a6932d9a0f\",\n    fields:       [\"FORM\", \"LEMMA\", \"U-POS\", \"FEATS\"],\n    headers:      [\"צורת מילה\", \"לֶמָּה\", \"חלק דיבור\", \"מאפיינים מורפולוגיים\"],\n    searchFields: [\"FORM\", \"LEMMA\"],\n    pageSize:     50,\n    sort:         \"_id asc\",\n    renderRow: r => [\n      { text: r[\"FORM\"]  || \"\" },\n      { text: r[\"LEMMA\"] || \"\" },\n      { text: posHeMap[r[\"U-POS\"]] || r[\"U-POS\"] || \"\" },\n      { text: r[\"FEATS\"] === \"_\" ? \"\" : (r[\"FEATS\"] || \"\"), dir: \"ltr\" },\n    ],\n  });\n\u003C\u002Fscript>\n",1778130670532]