水曜日, 2月 23, 2022
皆さんはもしブログを立ち上げるとなったら何を使いますか?やっぱりwordpressですかね?
ひねくれてるかもしれないですがwordpressを入れたくないなぁと思って代わりにこのFlatPressを導入しました。このブログのことです。
そこでWordPress使ったことないですがここが便利だなぁと思った点とここが不便だなぁという点を書き出してみました。
よかった点
- とにかく手軽
導入がクソ簡単だった。FlatPress公式サイトからダウンロードして上げ、あとは道なりに進んでいけば出来上がります。
悪かった点
ほとんどは使用人口が少ないことに起因していると思います。
- プラグインが少ない
- テーマが少ない
- 日本語の記事がほとんどない
日本語のgoogle検索でヒットした件数5200件ほど・・
- なんなら英語ですらあんまりない
作られたのはドイツらしい。
テーマやプラグインが充実すればめちゃくちゃすごいのになぁ・・・
最後に
間違ってたら加筆修正します・・・
画像を処理するAIのデータセットなどで画像を収集しなければならない時が時々ありますよね。
みなさんは画像収集する時どのようにして集めていますか?webスクレイピングの有名な手段としては、
- selenium
- Beautiful Soup
- Requests
- Scrapy
などがあると思いますが、画像収集という点だけに絞れば、もっと手軽に試せる手段があります。それがicrawlerです。
icrawlerとは
ウェブクローラ用のライブラリで画像や動画をスクレイピングすることができます。
使い方
まず、pipでicrawlerをインストールします。(既にインストールしている人はスキップしてください。)ターミナルやコマンドプロンプトなどで
pip install icrawler
です。
次に、インポートします。現在、icrawlerが機能する検索エンジンはbaidu・bingのみです。googleも対応していたようですが、現在は対策されたためエラーが出て使えません。日本人がbaiduを使うときはよっぽどないと思いますのでbingを使うという体で進めていきます。bingを使うときのicrawlerをインポートするコードは
from icrawler.builtin import BingImageCrawler
です。
crawler = BingImageCrawler(downloader_threads=4,storage={"root_dir": "apple"})
このコードはどの検索エンジンで何スレッドでクロールし、その結果をどこに保存するか決めています。このコードではbingで4スレッドでクロールをし、結果をappleというフォルダに入れるという設定になっています。
crawler.crawl(keyword="りんご", max_num=10)
このコードはどんなワードで検索し、その画像を何個保存するのかを決めています。このコードはりんごというキーワードで検索し、出てきた画像を10個保存するということになっています。
まとめ
これらをまとめると
from icrawler.builtin import BingImageCrawler
crawler = BingImageCrawler(downloader_threads=4,storage={"root_dir": "apple"})
crawler.crawl(keyword="りんご", max_num=10)
となります。Requestsなどで書くよりも遥かに短いです。手軽なので、試してみてエラーが出て動かないとなってから変えてみても遅くないというのがメリットだと思います。しかし、ここまで書いておきながら時間があるのであれば他のライブラリは圧倒的に汎用性が高いので画像のクロールを通してseleniumやRequestsなどの他のライブラリに慣れておくというのは悪くないのかも・・・とも思ってしまいました。