Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:ukoly:hackovani [2009/10/01 10:17] zeman Varianta pro arabštinu. |
user:zeman:ukoly:hackovani [2009/10/01 11:26] zeman Rozšíření motivace doplňování arabských souhlásek. |
===== Varianta pro arabštinu ===== | ===== Varianta pro arabštinu ===== |
| |
V arabštině (a také v hebrejštině) se diakritická znaménka používají pro zápis krátkých samohlásek, zdvojování souhlásek a další jevy. V běžném textu se vynechávají (na rozdíl od češtiny ne jenom tam, kde to vyžadují omezené technické prostředky, ale všude; mluvčí arabštiny je většinou dokáže doplnit z kontextu). Pro počítačové zpracování je potřeba krátké samohlásky rekonstruovat (např. kvůli převedení textu na řeč nebo kvůli rozlišení mluvnických tvarů). | V arabštině (a také v hebrejštině) se diakritická znaménka používají pro zápis krátkých samohlásek, zdvojování souhlásek a další jevy. V běžném textu se vynechávají (na rozdíl od češtiny ne jenom tam, kde to vyžadují omezené technické prostředky, ale všude; mluvčí arabštiny je většinou dokáže doplnit z kontextu). Pro počítačové zpracování je potřeba krátké samohlásky rekonstruovat (např. kvůli přepisu do latinky, převedení textu na řeč nebo kvůli rozlišení mluvnických tvarů). |
| |
Spisovná arabština má pouze 3 krátké samohlásky: //a, i// a //u//. Diakritická znaménka, kterými se tyto samohlásky zapisují, se objevují nad nebo pod předcházející souhláskou, mají však svůj vlastní kód v Unicode. Na rozdíl od češtiny, kde lze jedním znakem zapsat //c// a jiným znakem //č,// pro arabštinu nejsou definovány znaky //ba, bi// a //bu//. Místo toho se dotyčné slabiky reprezentují dvojicemi znaků, např. //b//+//a//. Odháčkování je tím pádem jednodušší, stačí z textu odstranit všechny výskyty znaků pro arabská diakritická znaménka. | Spisovná arabština má pouze 3 krátké samohlásky: //a, i// a //u//. Diakritická znaménka, kterými se tyto samohlásky zapisují, se objevují nad nebo pod předcházející souhláskou, mají však svůj vlastní kód v Unicode. Na rozdíl od češtiny, kde lze jedním znakem zapsat //c// a jiným znakem //č,// pro arabštinu nejsou definovány znaky //ba, bi// a //bu//. Místo toho se dotyčné slabiky reprezentují dvojicemi znaků, např. //b//+//a//. Odháčkování je tím pádem jednodušší, stačí z textu odstranit všechny výskyty znaků pro arabská diakritická znaménka. |
Následuje přehled diakritických znamének v arabštině. V příkladech je použita souhláska //b//: | Následuje přehled diakritických znamének v arabštině. V příkladech je použita souhláska //b//: |
| |
| Kód | Název | Význam | Příklad | Přepis | | | **Kód** | **Název** | **Význam** | **Příklad** | **Přepis** | |
| 064E | fatha | a | بَ | ba | | | 064E | fatha | a | بَ | ba | |
| 064F | damma | u | بُ | bu | | | 064F | damma | u | بُ | bu | |
| 0651 | shadda | zdvojení souhlásky | بّ | bb | | | 0651 | shadda | zdvojení souhlásky | بّ | bb | |
| 0652 | sukun | žádná samohláska | بْ | b | | | 0652 | sukun | žádná samohláska | بْ | b | |
| | 064B | fathatan | a + nunace | بً | ban | |
| | 064C | dammatan | u + nunace | بٌ | bun | |
| | 064D | kasratan | i + nunace | بٍ | bin | |
| |
Pro učení budete mít k dispozici vokalizované (= opatřené samohláskami) texty z Pražského arabského závislostního korpusu (PADT). | Pro učení budete mít k dispozici vokalizované (= opatřené samohláskami) texty z Pražského arabského závislostního korpusu (PADT). |
| |
| |
===== Další informace ===== | ===== Další informace ===== |
Další informace k úkolu najdete v http://ufal.mff.cuni.cz/~zeman/vyuka/podklady/pzpj03-prvni_ukoly.pdf. | Další informace k úkolu najdete v http://ufal.mff.cuni.cz/~zeman/vyuka/podklady/pzpj03-prvni_ukoly.pdf. |
| |
V zimním semestru 2007-2008 jsou v nabídce slovenština, polština a maďarština. Odkazy na trénovací data následují. | V zimním semestru 2009-2010 je v nabídce arabština. Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/padt10-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data. |
| |
| V zimním semestru 2007-2008 jsou v nabídce slovenština, polština a maďarština. Odkazy na trénovací data následují. |
| |
* {{user:zeman:ukoly:sk.tok.gz|Slovenská data}} | * {{user:zeman:ukoly:sk.tok.gz|Slovenská data}} |