rDrama/files/helpers/filters.py

from bs4 import BeautifulSoup
from flask import *
from urllib.parse import urlparse
from files.classes import BannedDomain

def filter_comment_html(html_text):

	soup = BeautifulSoup(html_text, 'lxml')

	links = soup.find_all("a")

	domain_list = set()

	for link in links:

		href = link.get("href")
		if not href: continue
		
		url = urlparse(href)
		domain = url.netloc
		path = url.path
		domain_list.add(domain+path)

		parts = domain.split(".")
		for i in range(len(parts)):
			new_domain = parts[i]
			for j in range(i + 1, len(parts)):
				new_domain += "." + parts[j]
				domain_list.add(new_domain)

	bans = [x for x in g.db.query(BannedDomain).filter(BannedDomain.domain.in_(list(domain_list))).all()]

	if bans: return bans
	else: return []
fd 2021-10-15 14:08:27 +00:00			`from bs4 import BeautifulSoup`
			`from flask import *`
			`from urllib.parse import urlparse`
			`from files.classes import BannedDomain`

			`def filter_comment_html(html_text):`

fd 2022-02-24 08:28:13 +00:00			`soup = BeautifulSoup(html_text, 'lxml')`
fd 2021-10-15 14:08:27 +00:00
			`links = soup.find_all("a")`

			`domain_list = set()`

			`for link in links:`

			`href = link.get("href")`
			`if not href: continue`
vxc 2022-02-03 06:39:02 +00:00
			`url = urlparse(href)`
			`domain = url.netloc`
			`path = url.path`
			`domain_list.add(domain+path)`
fd 2021-10-15 14:08:27 +00:00
			`parts = domain.split(".")`
			`for i in range(len(parts)):`
			`new_domain = parts[i]`
			`for j in range(i + 1, len(parts)):`
			`new_domain += "." + parts[j]`
			`domain_list.add(new_domain)`

fd 2022-02-24 08:28:13 +00:00			`bans = [x for x in g.db.query(BannedDomain).filter(BannedDomain.domain.in_(list(domain_list))).all()]`
fd 2021-10-15 14:08:27 +00:00
			`if bans: return bans`
			`else: return []`