[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Háčkování

spolecne

Napište program, který načte text psaný převážně nebo zcela malými písmeny a nahradí malá písmena velkými tam, kde správně mají být.

Motivace: Při trénování statistického strojového překladu se trénovací data převádějí na malá písmena. Dělá se to proto, aby se zbytečně neštěpily statistiky. Příklad: české slovo “auto” lze do angličtiny přeložit (mj.) jako “car”, “vehicle” nebo “automobile”. V českých datech ho potkáme většinou jako “auto”, někdy jako “Auto” (na začátku věty nebo názvu, třeba “Auto Novák”), případně dokonce jako “AUTO”. Může se stát, že jeden z uvedených 3 překladů bude náhodou dominovat u varianty s velkým písmenem na začátku. Tato varianta je řídká, takže příkladů bude málo, statistika nebude dostatečně průkazná a překladový systém z toho vyvodí mylné závěry. Proto je výhodné varianty “auto”, “Auto” i “AUTO” sjednotit a jejich statistiky sečíst. K tomu právě slouží počáteční převedení celého textu na malá písmena. Vedlejším důsledkem ale je, že systém produkuje překlady, které jsou rovněž celé psané malými písmeny. Musí tedy následovat ještě dodatečný proces, který odhadne, kde má být velké písmeno, a doplní ho tam. Případné chyby tohoto procesu už nejsou z hlediska strojového překladu tak závažné, protože i bez správného velkého písmena lze význam přeložené věty zachytit. Přesto pochopitelně chceme, aby úspěšnost obnovování velkých písmen byla co největší.

Tato úloha je variací na úlohu Háčkování. Hlavní rozdíl tkví v tom, že kromě slova samotného je pro nás důležitý i případný začátek věty (předcházející znak může ukončovat větu, nebo je tohle začátek odstavce apod.) Přečtěte si zadání úlohy Háčkování a přiměřeně ho aplikujte na tuto úlohu.


[ Back to the navigation ] [ Back to the content ]