正規表現 組み合わせ例その4 URLとメールアドレスの表現

原文ファイルのトリセツ

皆さま、こんにちは。ホンヤク社の成田です。
だんだんと春が近づくのを感じる一週間でした。皆さまはいかがお過ごしでしょうか。

 

今回は、URLとメールアドレスに関する正規表現の組み合わせ例を紹介したいと思います。原文や訳文においてURLやメールアドレスが出現した際に、それらを検索したりTradosエディタ上でセグメントを絞り込んだりするのに便利かと思います。

 

<組み合わせ例>
https://www\.[a-z\.]+
⇒ 非常にシンプルなURLの表現で、「https://www.」の後に半角英字の小文字あるいは「.」が1文字以上という組み合わせです。これに当てはまらないURLも実際にはありますが、かなりのケースが当てはまることと思います。

 

https?://www\.[a-zA-Z0-9\.\-_]+
⇒ 上の例にもう少し細かな要素を組み込んだ表現です。「http」の後ろに「s」がついてもつかなくても良いように「s?」を挿入し、「www.」の後ろにはURLで基本的に使える文字として「半角英数字すべて」「.」「-」「_」が1文字以上という組み合わせにしています。これでほとんどのケースのURLが当てはまるかと思いますが、もし「/」「&」「%」といった区切り文字を含んだURLを検索したい場合はそれらも「[ ]」内に追記すると良いでしょう。また、「www.」は、最近は省略されるケースもよく見られますので、「www\.」は削除しても結構ですし、あるいは「(www\.)?」として、あってもなくてもヒットするようにすると良いと思います。

 

[a-zA-Z0-9\.\-_]+@.+
⇒ メールアドレスがヒットする正規表現です。「@」の前にメールアドレスで主に使える「半角英数字」「.」「-」「_」が1文字以上、「@」以降のドメイン部分に任意の文字が1文字以上という組み合わせにしています。

 

[a-zA-Z0-9\.\-_\!#\$%&’\*\+/=\?\^`\{\|\}~]+@([a-zA-Z0-9\-_]+\.)+[a-zA-Z0-9\-_]+
⇒ プロバイダによっては、メールアドレスに使える記号がかなり多いものもあるようです。ここでは、「.」「-」「_」に加えて「!#$%&’*+/=?^`{|}~」を「@」前に使える文字の候補として記しています。また、「@」の後ろのドメイン部分もより厳密にして、「半角英数字」「-」「_」の1文字以上の組み合わせが「.」で1回以上区切られているようになっています。なお、エスケープの「\」が非常に多い点もご注意ください。

 

いかがでしたでしょうか? 上記で紹介したものは網羅的ではないのですが、一般的なURLやメールアドレスにヒットさせるのに役立つかと思います。個々のケースでは、これらをベースにして応用的に加筆修正すると良いでしょう。

次回は、「.」と「*」や「+」を組み合わせた例をご紹介したいと思います。