[Projekt] Autokorrektur Wörterbuch für Schweizerdeutsch (Android)
Liebe Community
Ausgangslage:
Die meisten hier sind Schweizer und wissen die Nachteile unserer helvetischen Diglossie bei Smartphones zu verachten.
Kein Android Wörterbuch für Schweizerdeutsch. Also müssen wir das immer ausschalten.
Problem:
Beim schreiben in Dialekt funktioniert weder Autokorrektur noch Wortvorschlag der Android Tastatur.
Ursache:
Es gibt kein Dictionary für Schweizerdeutsch
Lösung:
Erstellen eines eigenen Wörterbuches für Android (Custom Dictionary)
Ressourcen:
Probleme:
- Unterschiedliche Schreibweisen wegen verschiedener Dialekte
Voregehen:
- Dictionary pro Dialektregion, ich fange an mit Espace-Mittelland (Bern)
- Textauszüge aus Nachrichten (FB, SMS, WhatsApp) von mehr als einer Person zusammentragen (Freiwillige?)
- Alles ausser buchstaben entfernen
- Alle Leerschläge mit Zeilenumbruch ersetzen
- Alphabetisch sortieren
- Häufigkeit mit dem Tool TextSTAT-2.9 analysieren
- Auffallend falsche Wörter löschen/korrigieren, intensive Anwendung von Regex mit Notepad2-mod, dann Schritt 6. wiederholen, bis die Qualität der Wortliste in einem vernünftigen Rahmen ist
- Wortliste mit Absoluter Häufigkeit aus TextSTAT in Excel exportieren
- Mit Hilfe von Pivot und Rumbasteln die Absolute Häufigkeit auf die von Android verlangte Skala 1-255 bringen
- Korrigierte Liste im Format:
<w f='255'>hallo</w>
<w f='190'>welt</w>
<w f='12'>chuchichäschtli</w>
exportieren als XML - XML mit dem Batchscript makedict_windows.bat (makedict.jar) in Dictionary für Android umwandeln
- Auf Gerät kopieren, Testen, Verbesserungen definieren
- Wenn Verbesserungswürdig, gehe zu Punkt 1. sonst gehe zu punk 14.
- Senden an MIUI und CM9 Repository und veröffendlichen
Im Moment habe ich die Liste mit ca. 13'000 unique Wörtern von meinen Unterhaltungen in Facebook, WhatsApp und MSN generiert (waren ca. 60'000 Wörter)
Es hat viele falsche Wörter, weil einige Gesprächspartner sehr individuelle und manchmal unverständliche Schreibweisen verwenden. Ich musste mit Regex tausende q mit g ersetzten, oder exzessiven Gebrauch von Selbstlauten (haaaalloooo -> hallo) korrigieren. Das hat mich bisher 18 Stunden Arbeit gekostet.
Bitte helft mit, nehmt Kontakt mit mir auf um mehr Nachrichten zu kriegen, damit die Liste besser wird, mit steigender menge an Grunddaten (Nachrichtentexte), steigt die Qualität, Diversivität, Fehler können einfach gelöscht werden (lösche alle Wörter mit Häufigkeit < 2). Das geht im Moment alles nicht, weil nur meine Nachrichtentexte zum Einsatz kommen.
Wer wäre bereit zu helfen?
Download:
Hier die bisherige Excel (Statistik)
Und die XML
Jeder kann damit selbst über makedict_windows.bat und makedict.jar ein Dictionary machen. Werde das auch online stellen, sobald wir das Testing abgeschlossen haben.
AW: [Projekt] Autokorrektur Wörterbuch für Schweizerdeutsch (Android)
Es täuscht. Es ist nicht mit viel Aufwand verbunden, Technisch das App zu erstellen und in den Markt zu stellen.
Alles was ich noch brauche sind Textproben, eine grosse Menge.
Ich habe jetzt in 10 Minuten aus einigen meiner Facebook-Unterhaltungen (Verlauf) eine Liste mit 41'000 Wörtern kopiert und bereinigt.
Bereinigt -> Sonderzeichen, Monats- und Tagnamen, Zahlen, Namen der Personen mit denen ich schreibe, Spitznamen, Wörter mit weniger als 3 Buchstaben.
Dennoch habe ich natürlich eine durch mein "Leben" beeinflusste liste. Da ich Thailändisch spreche, habe ich natürlich oft die schweizerdeutschen Wörter Thai, Thais, Thailand, Thailänder drin. So verhält es sich bei jedem, mit seinen Hobbies und vorlieben. Jemand der Künstler ist wird vermutlich oft spezifische Fachbegriffe drin haben. Diese kann man jedoch alle ganz einfach mit "Suchen und ersetzen" rausfiltern.
Ich habe nun eine sortierte Liste mit Dialektwörtern meiner Berndeutschen Schrift, 41'000 Einträge. Wenn noch andere mithelfen würden, ergäbe das dann ein super genaues Abbild unserer Dialekte für die Wortkorrektur und Wortvorschläge.
AW: [Projekt] Autokorrektur Wörterbuch für Schweizerdeutsch (Android)
Ich hab alles selber eingetippt mein Wörterbuch hat ca. 1200 Wörter und ist für meinen Geschmack ziemlich ausreichend! Hatte mal angefangen aber das hatte soviel falsche Wörter drin dann kam ein WK welch ein Glück :-D Hab den ganzen WK hindurch die wörter Korrigiert...
Wenn ich jetzt ein neues Wort eingebe nur mit Doppeltem ansehen!
41000 wörter sind zwar schon ziemlich heftig aber braucht es das wirklich?