wp2txtのインストールがものすごく大変だった気がする
wikipediaのデータを使って、単語とそのふりがなを取得しようと試みているけど、なんだか上手く行かない。そんな現状報告。
途中経過
- タイトルを登録している事例はよく見つかる
- コーパス作成の分野でいろいろ実践されている
- wp2txtを使うことで、wikipediaのダンプデータをテキスト化できる
- gem install wp2txtでインストールできるらしいがエラーを吐かれた
- rubyの入れ損
- bundleならいけるという情報を得て再び挑戦したが、だめ。
- 先のURLは最新記事。「Rubyをあらかじめ入れてあります」という一文に注目。
- 自分の環境についてrubyのチェックを行うと、
- lubuntu環境でapt-get updateしてもruby1.9.3しかインストールできない
- lubuntu環境にapt-get install gcc
- lubuntu環境にapt-get install make
- ruby-2.1.2をダウンロード
- sudo ./configure
- sudo make
- sudo make install
- gem install bundleしたらzlibがロードできないとしかられる
- こちらに従い対処するが、エラーが解消しない。
- こちらをヒントにrubyのビルドをやり直す
- gem source -a http://rubygems.orgを実行参考
- gem updateが動いた。
- sudo gem install bundleできた
- bundle init
- echo ‘gem “wp2txt”’ >> Gemfile
- bundle installできない
- ruby2.0.0で動くらしい参考
- lubuntuでの実現はあきらめて、mac osにインストールを試みる
- lubuntuは平行でクリーンインストール
成功例
- mac
- rbenvでruby 2.0.0-p353を入れる
- bundle init
- Gemfileにsource 'https://rubygems.org'を追加
- echo ‘gem “wp2txt”’ > Gemfile
- bundle install
- 動作した
知見
ruby2.0.0でしか動作しないことがわかった。 Oh...9時間近くかかるっぽい