2014-09-01 Wikipediaのダンプデータが案外適当だった話 未来の私へ。 Wikipediaのダンプについて 日本語のTTS(Test to Speech)で問題になるのが、形態素解析と漢字の読みです。 今回なんとなくWikipediaのダンプデータを変換したら気づいたことがありました。 jawiki-latest-abstract.xmlのタグは、webページの最初の文章に対応しない場合があること i.e. 赤松健 この現象は結構深刻でした。この現象を解決するには、jawiki-latest-pages-articles.xml.bz2からよみがなを抽出する必要がありそうです。