コモノポリタン

コモノ、デジモノが好きなKomonopolitan住民 (はてなダイアリーからの引っ越しです)

自炊レシピ

自炊といっても「フライパンで作るチーズケーキ」ではありません(ご要望があれば載せますが…*1 )。どうやら本(や漫画本)を解体してスキャナにかけて電子化することを「自炊」と呼ぶそうです。
旬が過ぎたビジネス本をブックオフ等で105円で仕入れて細々と読んでおりましたが、これが単行本なので結構嵩張ります。積読ですと積んで置くスペースが馬鹿になりません。折角、Kindle DXを手に入れたことですし、「自炊」して読んでみようかとトライしてみました。

準備

  • カッターナイフ(大型)、カッティングマット、金属定規:
     本を解体するのに使用。自炊のプロ(?)は裁断機を使うらしいのですが、素人はこれで十分。金属定規もカッティングマットも百円均一で購入できます。
  • スキャナ:
     Canon DR-150を使用。オートシートフィードが出来ないと辛いですね。これまた自炊のプロはドキュメントスキャナなどという軟弱なデバイスでは無く、フラットヘッドスキャナできちんと丁寧にスキャンしているらしい。尊敬。私は、以前、複合機のスキャナを使って洋書をスキャンしましたが心折れそうに…。
  • PDF結合ソフト:
     一気にスキャニング&PDF化していない(出来るのですが)ので、スキャンしたPDFを結合する必要あり。papyさんのpdfpdfdf.comを使用。
  • 自炊本一括変換ソフト:
     傾き補正や濃さの補正などしないとKindleで読みやすくなりません。No.722さんのChainLPを使用。今回はpdfからの入力を利用しますので、XPDFに含まれるpdfimages.exeも忘れずに。

レシピ

さて、自炊したい本を準備します。では、

  1. カッターナイフで本を解体します。
    まずは硬い厚紙の表紙を切り離します。あとは金属定規を当てながら端から5〜7mmぐらいの所をカッターで切ってゆきます。カッターは刃を切れる状態に維持するのが大切、時々ポキっと折ってあげましょう*2。切り残した背中の部分が邪魔になってきたら、カッターで切るか広げるように折り曲げてしまいましょう。
     ここが一番の難所…心理的に。本好きなので本にカッターを入れるなんて、と逡巡しながらも、心を無にしながら解体作業に取り掛かります。
  2. 一度パラパラとさばきます。
    5〜7mmも空けて切れば接着剤が残っていることは少ないと思いますが、時には袋綴じ状態になっている事もあるので、銀行員様の様にバサバサとさばいてくっついているページを探し、切り離しましょう。
  3. スキャナで読み込み。
    DR-150の設定は、600dpi/256段階グレースケール/両面/傾き補正/用紙サイズ自動認識/pdf、にしています。最近のOCRは素晴らしいですね。日本語でも検索には十分な精度で透明テキストを貼り付けてくれます。スペック上は20枚連続読み込みですが、30枚ぐらいならきちんと読み込んでくれるので、この作業を繰り返します。
  4. PDFの結合。
    スキャナは継続読み込みできるので、1冊分スキャンし終わってからPDFにしても良いのですが、途中何があるかわかりません&途中で一旦スキャニングを終了したい事もある、ので分冊のPDFにしています。その分冊を再び合体させるのに、pdfpdfpdfを使用します。結合したい順に、ドラッグ&ドロップして[ファイル名をつけて保存]すればOK。この透明テキスト付きの600dpi版は保存版としてPCにとっておきます。
  5. Kindle用に変換。
    Kindleに用いられているe-inkだと文字の濃さが若干薄く出るので、スキャンしたままではちょっと読みにくい。そこでChainLPを使って、ガンマ補正で濃くすると読みやすくなります。ChainLPの設定は、解像度:784x1142(Kindle DX(PDF))※1、ページ補正:傾き補正のみ、ガンマ補正;1.8、画像設定(本文):PNG/4bit(ディザなし)、です。この設定で基になるpdfを読み込み、pdfで出力してあげます。
    ※1:2010/05/7:アップデート2.5では、解像度784x1132がdot by dotのようです。

出来上がり。

自炊時間

さて手順は良いのですが、1冊電子化するのにどのぐらいの時間がかかるのでしょうか?ルイス・ガートナー著「巨象も踊る」(p.465)で検証。

時間 備考
解体 10〜15分 そこそこ丁寧にやってもそのぐらいかな
スキャニング 130分 30枚スキャンで16分強※2。これを8回ほど繰り返します
pdf結合 12秒
pdf読み込み 1分26秒
整形pdf出力 43分
合計 3時間10分

サイズは、41.1MBなり、です。
※2:思ったより時間がかかるのは「裏写り/地色除去」を指定しているからです。

出来具合

Kindle DXの表示領域は、ビジネス書(単行本)サイズとちょうど同じぐらいなので、私は「傾き補正のみ」で変換しています。もう少し大きな字にしたいときは「傾き+余白除去」とすると余白が削除されて大きくなります。が、自動で余白除去すると削れちゃうページもあるので、余白除去無しでとりあえずは運用してみてます。
見た目は、十分読める濃さで、大きさもオリジナルとほぼ同等。これなら読むには問題ありません。
しかしながら、ううむ総計3時間ですか…*3。ちょっと考えちゃいますね。ベースのスキャニングを300dpiぐらいに落すとかなり速くスキャンできるのですが。

*1:ってもったいぶるモノでもありませんね。ココをベースにちょっと手をいれただけ。このサイト素晴らし過ぎです。本も買っちゃいました。本来の自炊も結構好きなのです。

*2:1冊ぐらいでは駄目にならないとは思いますが

*3:じっと見ていなければならない時間は少ないのですが。解体とpdf結合・読み込みあたりは傍にいないと駄目ですが、それ以外はながら作業で、という感じですか。