TLDを取得するクローラーを書いてみた

標準

トップレベルドメインの判別をするコードがあるのですが、ドメインが増えたときにいちいちチェックするのも面倒なので、チェック用の正規表現を書き出すクローラースクリプトを書きました。

データは、IANA — Root Zone Database をスクレイピングして取得します。

スクレイピングライブラリは、Goutteを使用しました。Root Zone Databaseの内容を、CSV、Yaml、JSONと、正規表現として書き出すようにしています。

クローラーのソースコードはこちらから。

nojimage/tld-crawler

つくったはなから、barやbestなんかが追加されたでござる。TLD増えすぎ。。

コメントを残す

Page optimized by WP Minify WordPress Plugin