日経Web刊、紙面ビューア用画像取得スクリプト(Python)改訂
日経Web刊紙面画像リサイズスクリプト(Python)のコメントで要望頂いた点などを反映し、画像取得スクリプトを改訂しました。
日経新聞社からのクレームにより削除いたしました。各位にお詫び申し上げます。
必要環境
- Python2.5または2.6
- lxml
- PIL
変更点
- ダウンロードした画像をリビルドし、1枚にして指定ディレクトリへ出力出来るようにした(出力時ファイル名は20100429_朝刊_01_1面.jpgというようになります)
- 最大解像度の画像のみを取得し、転送量を削減した
- エラー発生時のリトライを自動的に行うようにし、基本的に一度のコマンド実行で全面を取得出来るようにした
使い方
例によって契約せずにデータ取得を行うような用途のものではありませんので、正規のアカウント設定が必要となります。その他注意については日経Web刊、紙面ビューア用画像取得スクリプト(Python)を一読下さい。
settings = { 'userAgent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; ja; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2', 'loginId' : 'username@example.com', 'loginPass' : 'password', 'dataDir' : 'C:\\Users\\testuser\\Desktop\\data', 'rebuiltDir' : 'C:\\Users\\testuser\\Desktop\\nk_rebuilt', 'outputSizeLevel1' : (500, 674), 'outputSizeLevel2' : (1000, 1348), 'outputSizeLevel3' : (1500, 2022), 'classDef' : [(3000, 16)] }
上記が設定部分です。
loginId, loginPassをそれぞれ指定、dataDirには取得した画像の元データ保存先を指定、rebuiltDirには1枚に結合した画像の出力先ディレクトリを指定して下さい。他はデフォルトのままでOKのはずです。