Parsing a Wikipedia dump

前端 未结 9 1291
生来不讨喜
生来不讨喜 2020-12-03 05:33

For example using this Wikipedia dump:

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=lebron%20james&rvprop=content&redirects=t

9条回答
  •  孤街浪徒
    2020-12-03 05:51

    WikiExtractor appears to be a clean, simple, and efficient way to do this in Python today: https://github.com/attardi/wikiextractor

    It provides an easy way to parse a Wikipedia dump into a simple file structure like so:

    ...
    ...
    ...
    ...
    

    ...where each doc looks like:

    
    Harmonium.
    L'harmonium è uno strumento musicale azionato con una tastiera, detta manuale.
    Sono stati costruiti anche alcuni harmonium con due manuali.
    ...
    
    

提交回复
热议问题