トップレベルドメインの判別をするコードがあるのですが、ドメインが増えたときにいちいちチェックするのも面倒なので、チェック用の正規表現を書き出すクローラースクリプトを書きました。
データは、IANA — Root Zone Database をスクレイピングして取得します。
スクレイピングライブラリは、Goutteを使用しました。Root Zone Databaseの内容を、CSV、Yaml、JSONと、正規表現として書き出すようにしています。
クローラーのソースコードはこちらから。
つくったはなから、barやbestなんかが追加されたでござる。TLD増えすぎ。。