HTML

HTMLのhrefパーサ

某氏がちょっこっと書いていたので.正規表現でHTMLからhrefのリンク先を全部抽出するならこんな感じ? import re def hrefParser (inStr): buff = [] ro1 = re.compile ("<a.+?href\s*=\s*\"(.*?)\".*?>", re.I) ro2 = re.compile ("<a.+?href\s*=\s*\'(.*?)\'.*?>", re.I) rs1 = ro1.search (inStr) while (rs1): buff.</a.+?href\s*=\s*\'(.*?)\'.*?></a.+?href\s*=\s*\"(.*?)\".*?>…