[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Rekonstrukce velkých písmen

spolecne

Napište program, který načte text psaný převážně nebo zcela malými písmeny a nahradí malá písmena velkými tam, kde správně mají být.

Motivace: Při trénování statistického strojového překladu se trénovací data převádějí na malá písmena. Dělá se to proto, aby se zbytečně neštěpily statistiky. Příklad: české slovo “auto” lze do angličtiny přeložit (mj.) jako “car”, “vehicle” nebo “automobile”. V českých datech ho potkáme většinou jako “auto”, někdy jako “Auto” (na začátku věty nebo názvu, třeba “Auto Novák”), případně dokonce jako “AUTO”. Může se stát, že jeden z uvedených 3 překladů bude náhodou dominovat u varianty s velkým písmenem na začátku. Tato varianta je řídká, takže příkladů bude málo, statistika nebude dostatečně průkazná a překladový systém z toho vyvodí mylné závěry. Proto je výhodné varianty “auto”, “Auto” i “AUTO” sjednotit a jejich statistiky sečíst. K tomu právě slouží počáteční převedení celého textu na malá písmena. Vedlejším důsledkem ale je, že systém produkuje překlady, které jsou rovněž celé psané malými písmeny. Musí tedy následovat ještě dodatečný proces, který odhadne, kde má být velké písmeno, a doplní ho tam. Případné chyby tohoto procesu už nejsou z hlediska strojového překladu tak závažné, protože i bez správného velkého písmena lze význam přeložené věty zachytit. Přesto pochopitelně chceme, aby úspěšnost obnovování velkých písmen byla co největší.

Tato úloha je variací na úlohu Háčkování. Hlavní rozdíl tkví v tom, že kromě slova samotného je pro nás důležitý i případný začátek věty (předcházející znak může ukončovat větu, nebo je tohle začátek odstavce apod.) Přečtěte si zadání úlohy Háčkování a přiměřeně ho aplikujte na tuto úlohu.

Další informace

Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).

Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním.

V zimním semestru 2011-2012 je v nabídce němčina, 2012-2013 španělština. Odkazy na trénovací data následují (pokud budete dotázáni na heslo, kontaktujte mne. Pokud nebudete, budu rád, když se ozvete taky, protože byste měli být dotázáni.)


[ Back to the navigation ] [ Back to the content ]