TLDを取得するクローラーを書いてみた

トップレベルドメインの判別をするコードがあるのですが、ドメインが増えたときにいちいちチェックするのも面倒なので、チェック用の正規表現を書き出すクローラースクリプトを書きました。

データは、IANA — Root Zone Database をスクレイピングして取得します。

スクレイピングライブラリは、Goutteを使用しました。Root Zone Databaseの内容を、CSV、Yaml、JSONと、正規表現として書き出すようにしています。

クローラーのソースコードはこちらから。

つくったはなから、barやbestなんかが追加されたでござる。TLD増えすぎ。。