Python日本語あれこれ。MeCab,zenhan.py,unichr



今朝は文章(google news)の読み仮名を取得 -> 音声合成してあそびました。

MeCabをPythonから

オープンソース形態素解析エンジンMeCab (和布蕪)。
windows版Pythonで必要なバイナリを配布してくださってるサイトを二つ発見。自力コンパイルは、よくわからなくて挫折。。。


全角/半角変換を行う Python モジュール zenhan.py 0.4

あとで試してみます

perl, python & ruby – chr() vs. Unicode(404 Blog Not Found)

数字の全角半角変換や、単純な「かなカナ」変換程度ならord+unichrでいけるかしらん?python shellだと、

print unichr(ord("あ".decode("sjis"))).encode(’sjis’)

で、文字 -> コード ->文字を一周。

print unichr(ord("1")-ord("0")+ord("0".decode("sjis"))).encode(’sjis’)

半角数字を全角数字に。

仮に半角数字 0123を全角にするとして、shell上では

import re; print re.sub( r’([0-9])’,lambda x: unichr(ord(x.group(0))-ord("0")+ord("0".decode("sjis"))).encode(’sjis’),"0123")

って書くとややこしいですけど、プログラムファイル中に書くときは、もう少しシンプルになる、はず。


全半英字、全角数字、かな、カナのみを透過する正規表現

yomi=u"ユニコード文字列"
pat= re.compile(r’([^' u"、。.ぁ-ん,ァ-ン,ー,0-9,a-z,A-Z,A-Z" r"])",re.UNICODE)
yomi=pat.sub(r"", yomi)

これで、yomi中の漢字、半角数字、記号などを削除

MeCabをパーサにして日本語プログラミング

誰でも思いつきそうなので、既にあるかも。係り受けも判定してくれる形態素解析ツールのほうがいいかな?

日本語プログラム言語「なでしこ」

なでしこはMeCabとか使ってない、はず。

国立国語研究所の言語コーパス整備計画はどうなるか

考えてみれば、ロボットに何がしかの命令を口頭で与えるのだって、「日本語プログラミング」に違いない、ですよね?

将来的には、今考えられてるよりも、重要な技術になるのかも

Tags:

Related posts

タグ:

コメントは受け付けていません。