This is an old revision of the document!
Table of Contents
Stopwords
Stopwords (česky bych přeložil jako nezajímavá slova) je poměrně vágně definovaný koncept, který má uplatnění v získávání informací a příbuzných oborech. Jde o slova, která nemá smysl považovat za klíčová při indexování nebo vyhledávání dokumentů, protože tato slova jsou v daném jazyce příliš běžná, takže nemůžeme říct, že charakterizují téma daného dokumentu nebo jeho části. Typicky sem patří funkční slova z uzavřených tříd, např. zájmena, číslovky, předložky, spojky a částice, ale i tvary pomocných a způsobových sloves.
Čeština
Seznam od Zdeňka Žabokrtského asi z roku 2004. Prošel tektogramatickou rovinu, vybral funkční slova ve skrytých uzlech (vedl na ně odkaz typu aux.rf), výsledný seznam ještě ručně opravil.
a
v
na
je
že
o
z
s
i
by
do
to
k
ve
pro
za
ale
po
jsou
jako
podle
od
však
bude
při
jen
u
aby
byl
až
nebo
než
být
se
ze
před
není
bylo
mezi
co
jsme
když
byla
jsem
ani
či
proti
tím
budou
bez
tom
ke
asi
nás
této
proto
pokud
protože
tomu
nad
byly
tento
li
toho
nám
tohoto
pod
což
kdo
ovšem
zda
tato
těchto
mu
tyto
přes
ji
ne
ho
kolem
bychom
jim
ten
tomto
nejen
mi
byli
během
tuto
prý
kdyby
bych
kromě
ty
neboť
nejsou
nebude
jak
zatímco
toto
mimo
takže
tak
jež
vůči
takové
jej
ta
té
jste
díky
vzhledem
mě
ti
já
jí
jestliže
nebyl
jich
my
těch
nebylo
vedle
kvůli
budeme
jenom
místo
buď
tj
jehož
de
ať
nebyla
přestože
takový
avšak
vám
nicméně
tímto
čím
vás
anebo
přičemž
on
včetně
tu
jenž
mne
nebudou
ano
nýbrž
jenže
byť
tomuto
jednak
nebyly
jestli
taková
okolo
bohužel
aniž
vždyť
takových
takového
touto
byste
takovou
oproti
tudíž
těm
ačkoliv
námi
oni
čem
ačkoli
ona
jím
těmito
budu
mně
těmto
zato
jakmile
jemuž
totéž
pozor
čímž
tito
takovém
naproti
téhož
vy
čili
čeho
ode
koho
nejsem
komu
ač
těmi
jímž
tohle
nejsme
neboli
tou
ono
jimž
jimi
téže
nechť
nebyli
ba
leč
budete
ony
nebudeme
krát
jimiž
jest
beze
nežli
dle
čemu
takovým
takovému
jelikož
jakožto
coby
aneb
oněch
onoho
ad
poněvadž
namísto
jichž
ku
jíž
buďte
ohledně
takovéto
onen
oné
jakož
vstříc
týž
nebudu
mnou
jemu
versus
vámi
podél
poblíž
nebýt
kdežto
již
onu
jenomže
takovými
kým
copak
zdali
třebaže
skrze
natož
uvnitř
takovýto
jsi
témže
téhle
tě
plus
no
nehledě
čemž
van
tentýž
takovýchto
jeho
čemuž
čehož
takříkajíc
budiž
tuhle
tenhle
takoví
ovšemže
kontra
buďto
takováto
onomu
onom
nejste
jejž
tytéž
tomtéž
oním
narozdíl
kdoví
jakoby
budeš
vyjma
tyhle
nade
býti
zpoza
vně
týchž
tímhle
takovouto
takovémto
tahle
skrz
nuže
nebudete
neb
kéž
jo
tutéž
titíž
tatáž
takovýmto
takovéhoto
leda
krom
kdož
bys
žel
týmž
tož
tomhle
tímtéž
tihle
témž
tebe
takovýhle
tací
sbohem
přede
onou
nu
nejenomže
nebudeš
ledaže
blízko
zpod
zaplaťpánbu
zadruhé
vzdor
viďte
via
uprostřed
týmiž
tyhlety
tomuhle
tíž
témuž
těma
těchže
takých
takovémhle
takovéhle
sic
přese
pakliže
onyno
oněmi
oněm
ni
neřkuli
nebuďte
napospas
naneštěstí
mnohem
kterážto
kráte
kohopak
kdopak
ježto
cožpak
cože
bysme
bůhví
buďme
budem
Angličtina
Můj seznam slov z uzavřených tříd, který jsem s pomocí Penn Treebanku vyráběl pro výuku Morfologické a syntaktické analýzy.
I me you he him she her it we us they them
one
myself yourself himself herself itself ourselves yourselves themselves oneself
my mine your yours his her hers its our ours their theirs
this these that those
a an the
who whom whose what which
some somebody someone something
any anybody anyone anything
every everybody everyone everything each all both
many much more most too enough
few little fewer less least
no nobody nothing none
zero one two three four five six seven eight nine ten
eleven twelve thirteen fourteen fifteen sixteen seventeen eighteen nineteen
twenty thirty forty fifty sixty seventy eighty ninety
hundred thousand million billion
first second third fourth fifth sixth seventh eighth ninth tenth
eleventh twelfth thirteenth fourteenth fifteenth sixteenth seventeenth eighteenth nineteenth
twentieth thirtieth fortieth fiftieth sixtieth seventieth eightieth ninetieth
hundredth thousandth millionth billionth
be am are is was were been being
have has had having
will would (willing)
can cannot could
shall should
may might
must
do does did done doing
here there now then
where when how why
somewhere sometime somehow
anywhere anytime anyhow anyway
everywhere always
nowhere never
aboard about above across after against ago along alongside amid among amongst around as astride at atop before behind below beneath beside besides between beyond by despite de down during en except for from in inside into lest like minus near next notwithstanding of off on onto opposite out outside over par past per plus post since through throughout 'til till to toward towards under underneath unlike until unto up upon versus via vs. with within without worth
& and both but either et less minus 'n 'n' neither nor or plus so times v. versus vs. yet
albeit although because 'cause if neither since so than that though 'til till unless until whereas whether which while
yes no not to
Další zdroje
- http://www.ranks.nl/resources/stopwords.html (momentálně mají seznamy pro 19 jazyků, ale pozor, chybí jim tam diakritika)
- http://www.phpbar.de/w/Stoppwortliste_deutsch (němčina rovnou připravena jako zdroják PHP)
- ftp://ftp.cs.cornell.edu/pub/smart/english.stop (angličtina)
- ftp://ftp.cs.cornell.edu/pub/smart/spanish.stop (španělština)
- http://sourceforge.net/projects/arabicstopwords/ (arabština)
- http://snowball.tartarus.org/algorithms/french/stop.txt (francouzština; tohle je součást projektu Snowball, který má údajně pokrytou i řadu dalších jazyků)
- http://norm.al/2009/04/14/list-of-english-stop-words/ (angličtina; též připraveno jako zdroják pro PHP a pro MySQL)