我写了一个爬虫,通过xpath将自己所需要的标签都挑选了出来了,现在要筛选出只留下需要的字符了,其中有一个标签里的元素有几段话是不需要的,那几段话就是以“关于”,“(代转)” ,这样开头的,我想写一个正则匹配出来这几段话,把这几段话给删除掉,只留下我需要的内容,请问要怎么写正则?
我写了一个爬虫,通过xpath将自己所需要的标签都挑选了出来了,现在要筛选出只留下需要的字符了,其中有一个标签里的元素有几段话是不需要的,那几段话就是以“关于”,“(代转)” ,这样开头的,我想写一个正则匹配出来这几段话,把这几段话给删除掉,只留下我需要的内容,请问要怎么写正则?
'<.+?>(?:关于|(代转)).*?</.+?>'
我用,re1 = re.findall('^(代转).|关于.', sc_bt, re.M),已经都匹配到了