Forum: Overview Suche & Biete - 벼룩시장 RSS
Romanisierung
Technische Plattform Romanisierung von Koreanischen Zeichen
This ad is presented to unregistered guests only.
hneiter #1
Member since Nov 2010 · 6 posts · Location: An den drei Baeumen 3, 63654 Buedingen
Group memberships: Benutzer
Show profile · Link to this post
Subject: Romanisierung
Hallo,
ich suche eine technische Plattform, um koreanische Zeichen, analog Pinyin in China, in lateinische Zeichen zu konvertieren. Fuer Pinyin gibt es mapping tables. Gibt es das auch in Korea bzw. wie wird das professionell geloest.
Ich waere wirklich dankbar, wenn mir jemand einen Tip geben koennte.

Dank und viele Gruesse
Horst
Avatar
iGEL (Administrator) #2
User title: 이글
Member since Jan 2005 · 3493 posts · Location: Berlin
Group memberships: Administratoren, Benutzer
Show profile · Link to this post
Moin!

Ich bin nicht ganz sicher, was du meinst. Wenn du ein Tool zum Erstellen der Umschrift suchst: Beim Google Übersetzer kannst du "Koreanisch->Koreanisch" einstellen und dann die Umschrift-Funktion aktivieren. Das Tool beachtet aber nur die Basisregeln der revidierten Romanisierungen, ergibt also keine perfekten Ergebnisse.

Falls du wissen willst, welche Romanisierungsformen es gibt:
- McCune Reischauer ist in Nordkorea in einer Variation offizielle Umschrift
- Die revidierte Romanisierung ist seit 2000 in Südkorea offiziell. Basiert weitgehend auf McCune Reischauer, ist aber einfacher zu bilden und verzichtet auf spezielle Zeichen. McCune Reischauer benutzt theoretisch ', ŏ & ŭ, in der Praxis wird aber meistens darauf verzichtet, was zu nicht eindeutigen Ergebnissen führt
- Yale wird im Linguistischen Bereich (afaik insbesondere in den USA) verwendet

Viele Koreaner transliterien aber ohne System, was natürlich ziemlich chaotische Ergebnisse ergibt.

Gruß, Johannes
Offizieller Dogil.net / Meet-Korea-Twitter-Kanal: http://twitter.com/DogilNet
hneiter #3
Member since Nov 2010 · 6 posts · Location: An den drei Baeumen 3, 63654 Buedingen
Group memberships: Benutzer
Show profile · Link to this post
Danke Johannes,
ich suche tatsaechlich eine Moeglichkeit, analog Pinyin in China, Informationen uenermittelt in koreanischem
Encoding, automatisiert in lateinische Zeichgen zu konvertieren.

Gruesse
Horst
Avatar
EddyMI #4
User title: 통치자가 올바른요
Member since Dec 2005 · 431 posts · Location: Münster
Group memberships: Benutzer
Show profile · Link to this post
Hallo Horst,

man müsste für das Hangeul-Segment der Unicode Tabelle eine kleine Datenbank einrichten, die die Übersetzung bewerkstelligt. Aber wie Johannes schon sagte, es kann nur eine 1:1 Umsetzung stattfinden, Sonderregeln zur Aussprache werden nicht berücksichtigt.
Da würde ich mir schon ehr, wie in anderen Threads empfohlen, eine halbe Woche Zeit nehmen und Hangeul lernen. Ist im Endeffekt einfacher...

Oder verfolgst Du mit Deinem Ansinnen ein spezielles datentechnisches Problem?
Freundliche Grüße aus Münster, Ewald
hneiter #5
Member since Nov 2010 · 6 posts · Location: An den drei Baeumen 3, 63654 Buedingen
Group memberships: Benutzer
Show profile · Link to this post
Hallo Eddy,
es geht hier ausschliesslich um Datentechnik (IT). Hat mit Aussprache und solchen Sachen nichts zu tun.
Ich bekomme Datensetze aus Korea z.B. Informationen ueber ein Flugticket im koranischen Encoding.
Diese Informationen kann ich als koreanische Zeichen (Unicode) ablegen ich moechte sie allerdings auch als
lateinische Zeichen darstellen.

Beispiel aus China:       
Passenger Name in chinesischen Zeichen: 熊雁田  konvertiert nach Pinyin: Xiong Yan Tian

Diese Konvertierung wird ueber mapping tables durchgefuehrt. Hinter jedem chinesischen Zeichen steht das
lateinische Pendant. Gibt es fuer Korea bzw. koreanisches Encoding etwas aehnliches ?

Gruesse
Horst
Flo-ohne-h (Moderator) #6
Member since Jul 2009 · 2016 posts · Location: 深圳
Group memberships: Benutzer, Globale Moderatoren
Show profile · Link to this post
Quote by hneiter:
Diese Konvertierung wird ueber mapping tables durchgefuehrt. Hinter jedem chinesischen Zeichen steht das
lateinische Pendant. Gibt es fuer Korea bzw. koreanisches Encoding etwas aehnliches ?

Schau mal unter http://www.unicode.org/Public/UNIDATA/NamesList.txt nach. Da steht der Unicode mit Beschreibung drin. Den über ein Script einzubinden sollte leicht sein.
Avatar
iGEL (Administrator) #7
User title: 이글
Member since Jan 2005 · 3493 posts · Location: Berlin
Group memberships: Administratoren, Benutzer
Show profile · Link to this post
In reply to post #5
Moin!

Da sich die revidierte Romanisierung sowohl an der Aussprache als auch an der Schrift orientiert, kannst du nicht komplett auf die Regeln der Aussprache verzichten.

Also, die koreanische Schrift Hangeul hat 51 Buchstaben, die aber silbenweise zusammengesetzt werden. Das zusammengesetzte Zeichen kann in Unicode in Einzelzeichen kodiert werden (decomposed), meistens wird es aber in ein Zeichen codiert (composed). Übliche Unicodeimplementierungen können zwischen beiden Formen konvertieren.

Ich würde den String composed in die Silben zerlegen, dann decomposen und eine Normierung vornehmen. Dabei solltest du mindestens innerhalb eines Wortes den Auslaut (der abschließende Konsonant der Silbe) in einen Anlaut der nächsten Silbe verwandeln, falls diese keinen Anlaut hat. Anschließend kannst du die Einzelzeichen in die lateinische Schrift umwandeln, wobei du beachten musst, dass Konsonanten jeweils zwei Formen haben, je nachdem, ob sie Anlaut oder Auslaut der Silbe sind. Damit bekommst du das Niveau des Google-Übersetzers hin, aber keine perfekte Umschrift. Dazu müsste man die Normalisierung deutlich aufbohren.

Die composedten Zeichen einfach zu Mappen würde eine noch fehlerhaftere Umschrift ergeben.

Darf man fragen, um was für Daten es sich handelt? Wenn es nur um Städte oder gar Flughäfen geht, wäre es sicherlich einfacher, alle Stadt-Namen zu mappen und keine komplette Umschrift vorzunehmen. Und Personen wählen die Umschrift ihres Namens in der Regel ohne System und könnten sich angefasst fühlen, wenn du ihnen plötzlich eine andere Umschrift unterschiebst.

Gruß, Johannes
Offizieller Dogil.net / Meet-Korea-Twitter-Kanal: http://twitter.com/DogilNet
hneiter #8
Member since Nov 2010 · 6 posts · Location: An den drei Baeumen 3, 63654 Buedingen
Group memberships: Benutzer
Show profile · Link to this post
Subject: Romanisierung
Danke Johannes,
es geht um z.B. Flugticketdaten wie passenger name, also wirklich auch Personennamen.
Zusaetzlich natuerlich auch um Airport Codes, die werden natuerlich in einer Tabelle zusammengefasst.
Ich habe das jetzt so verstanden, dass ich die Informationen, die ich im koreanischen Encoding bekomme,
nicht eins zu eins umsetzen kann. Das verstehe ich. Im Chinesischen ist das auch nicht fehlerfrei moeglich, da manche Chinesischen Zeichen (ca. 600) bis zu 3 lateinische Pendants haben koennen, je nachdem in welchem Zusammenhang das Zeichen eingesetzt wird.

Vielen Dank an euch alle fuer eure Hilfe

Horst
bnz #9
Member since Apr 2010 · 168 posts · Location: Darmstadt
Group memberships: Benutzer
Show profile · Link to this post
Probiers mal hiermit:

http://www.kawa.net/works/ajax/romanize/hangul-e.html

funktioniert meistens recht gut, allerdings bin ich auch schon über Wörter gestolpert, die das Script nicht richtig umwandelt. Siehe:

http://forum.meet-korea.de/thread/4413-Romanisierungsfragen

Für meine Begriffe lässt sich die revidierte Romanisierung nicht ganz ohne die McCune Reischauer regeln bewerkstelligen auf denen es ursprünglich basiert. Ich habe leider nie das dazugehörige offizielle Dokument über die revidierte Romanisierung gefunden. Ich fürchte, wenn Du eine fehlerfreie Romanisierung suchst, wirst Du nicht viel finden - ich bin auch auf der Suche nach dem Gral, der alles richtig macht für mein Anki-Plugin (Flashcard-System). Im Prinzip müste man so ein Basisskript hernehmen, neu schreiben, Tests aus der Wictionary Datenbank extrahieren und dann tunen bis man alles richtig hat :-)

Übrigens gibt es auch ein Python Modul für Romanisierung, das kannst Du aber getrost vergessen: es macht noch viel mehr falsch als das Perl Modul.

Wie gesagt, wenn Du etwas findest, würde es mich auch interessieren und mich über Feedback von Deinen Recherchen freuen.
Avatar
Jaejun #10
Member since Dec 2010 · 10 posts · Location: Dachau
Group memberships: Benutzer
Show profile · Link to this post
Ich persönlich finde diese Seite nicht schlecht -> http://sori.org/hangul/conv2kr.cgi
Skype: TabiHyung
Twitter: http://www.twitter.com/TabiHyung
Facebook: http://www.facebook.com/TabiHyung
Avatar
iGEL (Administrator) #11
User title: 이글
Member since Jan 2005 · 3493 posts · Location: Berlin
Group memberships: Administratoren, Benutzer
Show profile · Link to this post
Moin!

Tatsächlich ist die sogar ziemlich gut, sogar 독립문 kriegt er hin. Nur einfache Dinge wie 먹다 wird als meoktta übersetzt. Da hält sich wohl jemand sehr an die tatsächliche Aussprache...

Danke für den Link, kannte ich noch gar nicht. :)

Gruß, Johannes
Offizieller Dogil.net / Meet-Korea-Twitter-Kanal: http://twitter.com/DogilNet
This post was edited on 2010-12-12, 18:51 by iGEL.
Close Smaller – Larger + Reply to this post:
Smileys: :-) ;-) :-D :-p :blush: :cool: :rolleyes: :huh: :-/ <_< :-( :'( :#: :scared: 8-( :nuts: :-O
Special characters:
Go to forum
Not logged in.
Lost password · Register
Current time: 2019-10-18, 15:16:59 (UTC +02:00)  ·  Impressum  ·  Datenschutz