• Das Erstellen neuer Accounts wurde ausgesetzt. Bei berechtigtem Interesse bitte Kontaktaufnahme über die üblichen Wege. Beste Grüße der Admin

Gesucht: "unwichtige" Wörter

style-guide!

Lounge-Member
wie z.B.:

und
oder
ich
du
er
sie
es
wir
ihr
sie
....

Für Begriffe, die nicht weiter berücksichtigt werden sollen bei einer Indizierung...
 
:D :D :D

Spass beiseite, das ganze hat schon einen etwas ernsteren Hintergrund.

Ich versuche gerade herauszufinden, bzw. nachzubauen, wie eine Webseite von einem Roboter verarbeitet wird / werden könnte. Hier geht es darum, den Quellcode auseinanderzunehmen in die einzelnen Bestandteile und diese auszuwerten. Das ganze soll nicht perfekt sein, aber eine "Marschrichtung" andeuten können um grundsätzliche Fehler bei der Seitenerstellung zu verhindern.

Um hier halt eine sinnvolle Inhaltsverwertung zu haben, ist es ratsam einige Wörter der dt. Sprache nicht zu berücksichtigen.
 
püh, ja ich denke mal alle Artikel (bestimmte wie unbestimmte) ließen sich filtern, dann Bindewörter wie "trotzdem", "aber", "das heißt"...
um mal nen Anfang zu machen

aber wäre es nicht vielleicht auch eine überlegung Wert einfach alle Wörter wegzufiltern, die kleingeschrieben sind. Vielleicht sicherheitshalber auchnoch die die am Satzanfang stehen.
 
Original geschrieben von digleu
püh, ja ich denke mal alle Artikel (bestimmte wie unbestimmte) ließen sich filtern, dann Bindewörter wie "trotzdem", "aber", "das heißt"...
um mal nen Anfang zu machen

aber wäre es nicht vielleicht auch eine überlegung Wert einfach alle Wörter wegzufiltern, die kleingeschrieben sind. Vielleicht sicherheitshalber auchnoch die die am Satzanfang stehen.

Das ist aber leider zuviel des guten. Es ist nur sauber, wenn gegen einen sinnvolle Blacklist abgeglichen wird, deshalb versuche ich möglichst viele Wörter zusammenzusammeln.
 
Kannst Du das nicht über einen statistichen Ansatz lösen? Solche Bindewörter sollten doch relativ häufig im Vergleich zu den anderen Worten auftauchen, so daß man eine obere Schwelle definieren könnte, über der Worte automatisch in der Blacklist landen.... nur so eine Idee
 
Original geschrieben von Albu
Kannst Du das nicht über einen statistichen Ansatz lösen? Solche Bindewörter sollten doch relativ häufig im Vergleich zu den anderen Worten auftauchen, so daß man eine obere Schwelle definieren könnte, über der Worte automatisch in der Blacklist landen.... nur so eine Idee

Ick könnt Dir
bussi.gif
 
Ich erstelle einfach eine Vorschlagliste mit den Begriffen, die amhäufigsten gefunden wurden. So können diese noch manuell geprüft werden ob doch sinnvoll oder nicht.
 
ich hab hier vom forum einen wortindex. den kannst ja mal haben, da sind 3487525 wörter drin. wenn du da albus schwellen reinpackst und nen limes gegen 0 definierst, dann kannst den rest ja nehmen und das sind deine häufigen wörter..
oder so :D
bye,
mo
 
Original geschrieben von Michael
ich hab hier vom forum einen wortindex. den kannst ja mal haben, da sind 3487525 wörter drin. wenn du da albus schwellen reinpackst und nen limes gegen 0 definierst, dann kannst den rest ja nehmen und das sind deine häufigen wörter..
oder so :D
bye,
mo

Hab selber so einen Index, das ist aber mehr arbeit als Albus Vorschlag.
 
Zurück
Oben