ChaSenをインストールしてみる。 ChaSenについての詳細は以下。

形態素解析システム茶筌

準備

ChaSen 2.3.3、ipadic 2.6.3の他に、必要なライブラリとしてDarts 0.2、libiconv 1.10(と、その日本語パッチ)をダウンロード

# 適当に作業ディレクトリを作成
mkdir chasen
cd chasen/

# 必要なパッケージをダウンロード
wget http://chasen.org/~taku/software/darts/src/darts-0.2.tar.gz
wget http://chasen.naist.jp/stable/ipadic/ipadic-2.6.3.tar.gz
wget http://chasen.naist.jp/stable/chasen/chasen-2.3.3.tar.gz

# パッチ
wget http://chasen.aist-nara.ac.jp/stable/chasen/chasen-2.3.3.20030821.patch
wget http://chasen.aist-nara.ac.jp/stable/chasen/chasen-2.3.3.20030822.patch

# libiconvとlibiconvの日本語パッチをダウンロード
wget ftp://core.ring.gr.jp/pub/GNU/libiconv/libiconv-1.10.tar.gz
wget http://www2d.biglobe.ne.jp/~msyk/software/libiconv/libiconv-1.10-ja-1.patch.gz

dartsのインストール

# dartsを展開
tar xvzf darts-0.2.tar.gz 
cd darts-0.2

# インストール
./configure --disable-shared
make
make check
make install

libiconvのインストール

# libiconvを展開
cd ..
tar xvzf libiconv-1.10.tar.gz
cd libiconv-1.10

# パッチを適用
gzip -dc ../libiconv-1.10-ja-1.patch.gz | patch -p1

# インストール
./configure --with-libiconv=/usr/local
make
make check
make install

インストールできたら、テストしてみる。

# テスト
iconv -l | grep -- -MS

このような感じで出力されればOK。

EUC-JP-MS EUCJP-MS EUCJP-OPEN EUCJP-WIN EUCJPMS
CP932 MS932 SHIFFT_JIS-MS SJIS-MS SJIS-OPEN SJIS-WIN WINDOWS-31J WINDOWS-932 CSWINDOWS31J
CP50221 ISO-2022-JP-MS MS50221 WINDOWS-50221

ChaSenのインストール

# chasenを展開
cd ..
tar xvzf chasen-2.3.3.tar.gz
cd chasen-2.3.3

# パッチを適用する 
patch < ../chasen-2.3.3.20030821.patch
patch < ../chasen-2.3.3.20030822.patch

# lib/dartsdic.cppを修正する
# 「gcc(g++) verison 3.4.3でコンパイルが通らない」(http://chasen.aist-nara.ac.jp/hiki/ChaSen/?%BC%C1%CC%E4%C8%A2)
cp -p lib/dartsdic.cpp lib/dartsdic.cpp.bak
vi lib/dartsdic.cpp

# lib/dartsdic.cppの180行目付近を以下のように変更
# <       //(const char*)keys[size] = key.data();
# <         keys[size] = (char*)key.data();
# ---
# >       (const char*)keys[size] = key.data();

# インストール
./configure --with-libiconv=/usr/local --with-darts=/usr/local/include --disable-shared
make
make check
make install

ipadicのインストール

# ipadicを展開
cd ..
tar xvzf ipadic-2.6.3.tar.gz 
cd ipadic-2.6.3

# インストール
./configure
make
make install

動作テスト

chasenと入力すると待機状態になる。 ここで適当に文章を入力してENTERすると、解析が行われる。 (辞書等はEUCで書かれているので、文字コードをEUCにしないとうまく表示されないので注意)

# テストしてみる
chasen
Chasenをインストールしてみよう。 # 適当に入力してENTER
C       シー    C       記号-アルファベット             
h       エッチ  h       記号-アルファベット             
a       エイ    a       記号-アルファベット             
s       エス    s       記号-アルファベット             
e       イー    e       記号-アルファベット             
n       エヌ    n       記号-アルファベット             
を      ヲ      を      助詞-格助詞-一般                
インストール    インストール    インストール    名詞-一般               
し      シ      する    動詞-自立       サ変・スル      連用形
て      テ      て      助詞-接続助詞           
みよ    ミヨ    みる    動詞-非自立     一段    未然ウ接続
う      ウ      う      助動詞  不変化型        基本形
。      。      。      記号-句点               
EOS

こんな感じで表示されればOK。

参考になったサイト

あとで役に立ちそうなのでこれもメモ。