TAMALOG

プログラミングがあれば遠いところへ行けます。プログラムと人の共生を記録します。

Wikipediaのダンプデータが案外適当だった話

未来の私へ。

Wikipediaのダンプについて

日本語のTTS(Test to Speech)で問題になるのが、形態素解析と漢字の読みです。

今回なんとなくWikipediaのダンプデータを変換したら気づいたことがありました。

  • jawiki-latest-abstract.xmlタグは、webページの最初の文章に対応しない場合があること
    • i.e. 赤松健

この現象は結構深刻でした。この現象を解決するには、jawiki-latest-pages-articles.xml.bz2からよみがなを抽出する必要がありそうです。