iText: missing characters when converting PDF to Text
问题 I am Trying to extract the text from the this pdf using the LocationTextExtractionStrategy.class, but for some reason a number of characters are being dropped during the parsing. On the first page of the original .pdf; 【表紙】 【提出書類】有価証券報告書 【根拠条文】金融商品取引法第24条第1項 【提出先】近畿財務局長 【提出日】平成22年6月28日 【事業年度】第27期(自 平成21年4月1日 至 平成22年3月31日) 【会社名】株式会社カネミツ 【英訳名】KANEMITSU CORPORATION Resulting text output has numbers such as 22,28 and the english text "KANEMATSU" missing; 【表紙】 【提出書類】 有価証券報告書 【根拠条文】 金融商品取引法第条第1項