RE:HTMLのhrefパーサ - $ tail -f /var/log/yamaneko

やさしいt-fridgeが以前に書いたhrefパーサについての返事をくれたので，コードを解析してみます．

以前に僕の書いたコードは

# coding: utf-8
import re

def hrefParser (inStr):
    buff = []
    ro1 = re.compile ("<a.+?href\s*=\s*\"(.*?)\".*?>", re.I)
    ro2 = re.compile ("<a.+?href\s*=\s*\'(.*?)\'.*?>", re.I)

    rs1 = ro1.search (inStr)
    while (rs1):
        buff.append (inStr[rs1.group ().start ():rs1.group ()end()])
        inStr = inStr[:rs1.group ().start ()] + inStr[rs1.group ().end():])
        rs1 = ro1.search (inStr)

    rs2 = ro2.search (inStr)
    while (rs2):
        buff.append (inStr[rs2.group ().start ():rs2.group ()end()])
        inStr = inStr[:rs2.group ().start ()] + inStr[rs2.group ().end():])
        rs2 = ro2.search (inStr)

    return buff

はは，醜い．

で，t-fridgeのコードは

# coding: utf-8
import re

reg = re.compile( r'<a\s+.*href\s*=\s*[\s|\'|"]{0,1}(http://[a-zA-Z\d?*!$&%#@~_=\-/.,;:()]+)[\s|\'|"]{0,1}.*>.*</a>', re.IGNORECASE )
def searchURL(bodystring):
    return = re.findall(reg,bodystring)

おお，短い．

ざっと見てポイントは正規表現とfindallにあるようですね．