Andreev-A · February 7, 2022 20:55
diff --git a/wikistat.py b/wikistat.py
 from bs4 import BeautifulSoup
 import re
 import os


 # Вспомогательная функция, её наличие не обязательно и не будет проверяться
 def build_tree(start, end, path):
    link_re = re.compile(r"(?<=/wiki/)[\w()]+")  # Искать ссылки можно как угодно, не обязательно через re
    files = dict.fromkeys(os.listdir(path))  # Словарь вида {"filename1": None, "filename2": None, ...}
    # TODO Проставить всем ключам в files правильного родителя в значение, начиная от start
    link_list = [start]
    while link_list:
        for id, link in enumerate(link_list):
            with open("{}{}".format(path, link), encoding='utf-8') as data:
                file_links = link_re.findall(data.read())
                for lnk in [i for i in file_links if i in files.keys()]:
                    if files.get(lnk) is None:
                        files[lnk] = link
                        if lnk == end:
                            return files
                        link_list.append(lnk)
            link_list.pop(id)
    return files


 # Вспомогательная функция, её наличие не обязательно и не будет проверяться
 def build_bridge(start, end, path):
    files = build_tree(start, end, path)
    # TODO Добавить нужные страницы в bridge
    parent = end
    bridge = [parent]
    while parent != start:
        parent = files[parent]
        if parent is not None:
            bridge.append(parent)
        else:
            bridge.append(start)
            parent = start
    return bridge[::-1]


 def parse(start, end, path):
    """
    Если не получается найти список страниц bridge, через ссылки на которых можно добраться от start до end, то,
    по крайней мере, известны сами start и end, и можно распарсить хотя бы их: bridge = [end, start]. Оценка за тест,
    в этом случае, будет сильно снижена, но на минимальный проходной балл наберется, и тест будет пройден.
    Чтобы получить максимальный балл, придется искать все страницы. Удачи!
    """

    bridge = build_bridge(start, end, path)  # Искать список страниц можно как угодно, даже так: bridge = [end, start]
    # Когда есть список страниц, из них нужно вытащить данные и вернуть их
    out = {}
    for file in bridge:
        with open("{}{}".format(path, file), encoding='utf-8') as data:
            soup = BeautifulSoup(data, "lxml")

        body = soup.find(id="bodyContent")

        # TODO посчитать реальные значения
        # imgs = 5  # Количество картинок (img) с шириной (width) не меньше 200
        imgs = len((body.find_all('img', width=lambda x: int(x or 0) > 199)))

        # headers = 10  # Количество заголовков, первая буква текста внутри которого: E, T или C
        headers = len([i.text for i in body.find_all(name=re.compile(r'[hH1-6]{2}')) if i.text[0] in 'ETC'])

        # linkslen = 15  # Длина максимальной последовательности ссылок, между которыми нет других тегов
        linkslen = 0
        link_found = body.find_next('a')
        while link_found:
            local_linklen = 1
            for i in link_found.find_next_siblings():
                if i.name == 'a':
                    local_linklen += 1
                else:
                    break
            linkslen = max(linkslen, local_linklen)
            link_found = link_found.find_next('a')

        # lists = 20  # Количество списков, не вложенных в другие списки
        lists = 0
        html_lists = body.find_all(['ul', 'ol'])
        for html_list in html_lists:
            if not html_list.find_parents(['ul', 'ol']):
                lists += 1

        out[file] = [imgs, headers, linkslen, lists]

    return out


 if __name__ == '__main__':
    correct = {
        'Stone_Age': [13, 10, 12, 40],
        'Brain': [19, 5, 25, 11],
        'Artificial_intelligence': [8, 19, 13, 198],
        'Python_(programming_language)': [2, 5, 17, 41],
    }
    start = 'Stone_Age'
    end = 'Python_(programming_language)'
    path = './wiki/'

    print('parse result:', parse(start, end, path))
    print('correct result', correct)
	from bs4 import BeautifulSoup
	import re
	import os


	# Вспомогательная функция, её наличие не обязательно и не будет проверяться
	def build_tree(start, end, path):
	link_re = re.compile(r"(?<=/wiki/)[\w()]+") # Искать ссылки можно как угодно, не обязательно через re
	files = dict.fromkeys(os.listdir(path)) # Словарь вида {"filename1": None, "filename2": None, ...}
	# TODO Проставить всем ключам в files правильного родителя в значение, начиная от start
	link_list = [start]
	while link_list:
	for id, link in enumerate(link_list):
	with open("{}{}".format(path, link), encoding='utf-8') as data:
	file_links = link_re.findall(data.read())
	for lnk in [i for i in file_links if i in files.keys()]:
	if files.get(lnk) is None:
	files[lnk] = link
	if lnk == end:
	return files
	link_list.append(lnk)
	link_list.pop(id)
	return files


	# Вспомогательная функция, её наличие не обязательно и не будет проверяться
	def build_bridge(start, end, path):
	files = build_tree(start, end, path)
	# TODO Добавить нужные страницы в bridge
	parent = end
	bridge = [parent]
	while parent != start:
	parent = files[parent]
	if parent is not None:
	bridge.append(parent)
	else:
	bridge.append(start)
	parent = start
	return bridge[::-1]


	def parse(start, end, path):
	"""
	Если не получается найти список страниц bridge, через ссылки на которых можно добраться от start до end, то,
	по крайней мере, известны сами start и end, и можно распарсить хотя бы их: bridge = [end, start]. Оценка за тест,
	в этом случае, будет сильно снижена, но на минимальный проходной балл наберется, и тест будет пройден.
	Чтобы получить максимальный балл, придется искать все страницы. Удачи!
	"""

	bridge = build_bridge(start, end, path) # Искать список страниц можно как угодно, даже так: bridge = [end, start]
	# Когда есть список страниц, из них нужно вытащить данные и вернуть их
	out = {}
	for file in bridge:
	with open("{}{}".format(path, file), encoding='utf-8') as data:
	soup = BeautifulSoup(data, "lxml")

	body = soup.find(id="bodyContent")

	# TODO посчитать реальные значения
	# imgs = 5 # Количество картинок (img) с шириной (width) не меньше 200
	imgs = len((body.find_all('img', width=lambda x: int(x or 0) > 199)))

	# headers = 10 # Количество заголовков, первая буква текста внутри которого: E, T или C
	headers = len([i.text for i in body.find_all(name=re.compile(r'[hH1-6]{2}')) if i.text[0] in 'ETC'])

	# linkslen = 15 # Длина максимальной последовательности ссылок, между которыми нет других тегов
	linkslen = 0
	link_found = body.find_next('a')
	while link_found:
	local_linklen = 1
	for i in link_found.find_next_siblings():
	if i.name == 'a':
	local_linklen += 1
	else:
	break
	linkslen = max(linkslen, local_linklen)
	link_found = link_found.find_next('a')

	# lists = 20 # Количество списков, не вложенных в другие списки
	lists = 0
	html_lists = body.find_all(['ul', 'ol'])
	for html_list in html_lists:
	if not html_list.find_parents(['ul', 'ol']):
	lists += 1

	out[file] = [imgs, headers, linkslen, lists]

	return out


	if __name__ == '__main__':
	correct = {
	'Stone_Age': [13, 10, 12, 40],
	'Brain': [19, 5, 25, 11],
	'Artificial_intelligence': [8, 19, 13, 198],
	'Python_(programming_language)': [2, 5, 17, 41],
	}
	start = 'Stone_Age'
	end = 'Python_(programming_language)'
	path = './wiki/'

	print('parse result:', parse(start, end, path))
	print('correct result', correct)