ChaSenをインストールしてみる。 ChaSenについての詳細は以下。
準備
ChaSen 2.3.3、ipadic 2.6.3の他に、必要なライブラリとしてDarts 0.2、libiconv 1.10(と、その日本語パッチ)をダウンロード
# 適当に作業ディレクトリを作成
mkdir chasen
cd chasen/
# 必要なパッケージをダウンロード
wget http://chasen.org/~taku/software/darts/src/darts-0.2.tar.gz
wget http://chasen.naist.jp/stable/ipadic/ipadic-2.6.3.tar.gz
wget http://chasen.naist.jp/stable/chasen/chasen-2.3.3.tar.gz
# パッチ
wget http://chasen.aist-nara.ac.jp/stable/chasen/chasen-2.3.3.20030821.patch
wget http://chasen.aist-nara.ac.jp/stable/chasen/chasen-2.3.3.20030822.patch
# libiconvとlibiconvの日本語パッチをダウンロード
wget ftp://core.ring.gr.jp/pub/GNU/libiconv/libiconv-1.10.tar.gz
wget http://www2d.biglobe.ne.jp/~msyk/software/libiconv/libiconv-1.10-ja-1.patch.gz
dartsのインストール
# dartsを展開
tar xvzf darts-0.2.tar.gz
cd darts-0.2
# インストール
./configure --disable-shared
make
make check
make install
libiconvのインストール
# libiconvを展開
cd ..
tar xvzf libiconv-1.10.tar.gz
cd libiconv-1.10
# パッチを適用
gzip -dc ../libiconv-1.10-ja-1.patch.gz | patch -p1
# インストール
./configure --with-libiconv=/usr/local
make
make check
make install
インストールできたら、テストしてみる。
# テスト
iconv -l | grep -- -MS
このような感じで出力されればOK。
EUC-JP-MS EUCJP-MS EUCJP-OPEN EUCJP-WIN EUCJPMS
CP932 MS932 SHIFFT_JIS-MS SJIS-MS SJIS-OPEN SJIS-WIN WINDOWS-31J WINDOWS-932 CSWINDOWS31J
CP50221 ISO-2022-JP-MS MS50221 WINDOWS-50221
ChaSenのインストール
# chasenを展開
cd ..
tar xvzf chasen-2.3.3.tar.gz
cd chasen-2.3.3
# パッチを適用する
patch < ../chasen-2.3.3.20030821.patch
patch < ../chasen-2.3.3.20030822.patch
# lib/dartsdic.cppを修正する
# 「gcc(g++) verison 3.4.3でコンパイルが通らない」(http://chasen.aist-nara.ac.jp/hiki/ChaSen/?%BC%C1%CC%E4%C8%A2)
cp -p lib/dartsdic.cpp lib/dartsdic.cpp.bak
vi lib/dartsdic.cpp
# lib/dartsdic.cppの180行目付近を以下のように変更
# < //(const char*)keys[size] = key.data();
# < keys[size] = (char*)key.data();
# ---
# > (const char*)keys[size] = key.data();
# インストール
./configure --with-libiconv=/usr/local --with-darts=/usr/local/include --disable-shared
make
make check
make install
ipadicのインストール
# ipadicを展開
cd ..
tar xvzf ipadic-2.6.3.tar.gz
cd ipadic-2.6.3
# インストール
./configure
make
make install
動作テスト
chasenと入力すると待機状態になる。 ここで適当に文章を入力してENTERすると、解析が行われる。 (辞書等はEUCで書かれているので、文字コードをEUCにしないとうまく表示されないので注意)
# テストしてみる
chasen
Chasenをインストールしてみよう。 # 適当に入力してENTER
C シー C 記号-アルファベット
h エッチ h 記号-アルファベット
a エイ a 記号-アルファベット
s エス s 記号-アルファベット
e イー e 記号-アルファベット
n エヌ n 記号-アルファベット
を ヲ を 助詞-格助詞-一般
インストール インストール インストール 名詞-一般
し シ する 動詞-自立 サ変・スル 連用形
て テ て 助詞-接続助詞
みよ ミヨ みる 動詞-非自立 一段 未然ウ接続
う ウ う 助動詞 不変化型 基本形
。 。 。 記号-句点
EOS
こんな感じで表示されればOK。
参考になったサイト
- Fedora へのnamazu(2.0.14)インストール
- ChaSen のインストール方法
- 全文検索システム Namazu のインストールメモ
- もろもろメモ - chasen のインストール、詳細
- libiconv-1.10-ja-1.patch.gz
あとで役に立ちそうなのでこれもメモ。
- [[PHPWalker » PHP5でchasenを使う:http://phpwalker.web-frigo.com/item36.html]]