知りたがりの雑記帳

24歳 大卒 既に2度転職 実家に寄生中無職 これからどうする!?

Google Booksの文章を高精度で抜き出す方法

最近床屋に行っていないので頭が段々マッシュルームに近づいてきている私、妖精(仮)です。


Google Booksから高精度で文章を抜き出す方法を一応確立したので自分用メモを含めて書きます。著作権の侵害にならない範囲で活用してください!

 

まあ早い話が、ぺっぺっぺーと抜き取ってポイッポイッポイと連結させてGoogleに自動抽出させる話です。全然画期的じゃないです。
今回の記事を読みたい人は多少PCに慣れていると思うので、簡潔に記しておきます。

 

Snipping Toolで切り取り

f:id:egashira1055:20170710124646p:plain
Windowsアクセサリの中のSnipping Toolというあまり使っている人が少ないアプリを起動します。
新規作成から切り抜きたい範囲を指定して切り抜く作業をやっていきます。(この方法では残念ですが膨大な量を切り抜いていくのは困難ですね)

 

画像連結ソフトをダウンロードし、1つの画像データに連結させる

f:id:egashira1055:20170710124638p:plain
http://www.vector.co.jp/soft/cmt/win95/art/se181236.html

こちらはインストール不要なので便利です。
画像を下に下に連結するだけなので使い慣れたソフトで1つにまとめるのもいいと思います。

ソフトを起動させたら一番上になる画像を表示させ、左にある連結方向の”下に連結”をクリック。
その後はポイッポイッと画像を一つずつ追加していきます(アナログちっく!w)
終わったら保存します。

 

Google Driveにアップロードし、Googleドキュメントで自動処理


ウェブ上には画像から文字だけ抽出できるサイトありますが、Googleの精度には勝てないだろーと思い込んでいるのでGoogle Driveにしましたw

 

アップロードしたファイルを右クリで”アプリで開く”からGoogle ドキュメントを選択し少々待っていると、勝手に文字だけ抽出してくれます。f:id:egashira1055:20170710124643p:plain

 

Google ドキュメントが表示されない場合は画像ファイルの拡張子を変換させればいいかと思います。
これをコピーするには範囲選択し、右クリでKeepメモ帳に保存を選択。
右側に範囲選択した内容が出てくるのでこちらをコピーしましょう。


ただし改行などされていないのと、スペースが勝手に入っているなどそのままでは使えません。Word等で置換処理して読みやすくしてください。

全然スマートとは言えないやり方ですがかなり精度よく文章だけ抽出させる方法でした。

もっと簡単な方法があれば誰か教えて!

 

追記 本来、非常に便利なFull Page Screen Capture


拡張機能で検索すると出てくるFull Page Screen Captureですが流石Googleですね、うまく全ページをキャプチャできません。
他のサイトで使う分には問題ないかと思います。

また、URLを入れてウェブサイト全体をキャプチャするサイトでもGoogle Booksを試しましたがダメでした。