HTML

2009-02-23

HTMLのhrefパーサ

python HTML

某氏がちょっこっと書いていたので．正規表現でHTMLからhrefのリンク先を全部抽出するならこんな感じ? import re def hrefParser (inStr): buff = [] ro1 = re.compile ("<a.+?href\s*=\s*\"(.*?)\".*?>", re.I) ro2 = re.compile ("<a.+?href\s*=\s*\'(.*?)\'.*?>", re.I) rs1 = ro1.search (inStr) while (rs1): buff.</a.+?href\s*=\s*\'(.*?)\'.*?></a.+?href\s*=\s*\"(.*?)\".*?>…