# Define here the models for your spider middleware
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/spider-middleware.html
import sys
import time
import logging
from scrapy import signals
from scrapy.mail import MailSender
from scrapy.utils.project import get_project_settings
# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter
from scrapy.http import HtmlResponse
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from shutil import which
import undetected_chromedriver as uc
if not (sys.platform == "linux" or sys.platform == "linux2"):
    uc.TARGET_VERSION = 90
from datetime import datetime
from selenium.webdriver.common.keys import Keys
from pyvirtualdisplay import Display
from scrapy.downloadermiddlewares.retry import RetryMiddleware
from scrapy.utils.response import response_status_message
import os
import codecs
from selenium.webdriver.common.action_chains import ActionChains

settings = get_project_settings()

class CouponsRetryMiddleware(RetryMiddleware):
    
    def process_response(self, request, response, spider):
        if request.meta.get('dont_retry', False):
            return response
        if response.status in self.retry_http_codes:
            reason = response_status_message(response.status)
            return self._retry(request, reason, spider) or response
        if (response.status == 200) and (request.meta.get('myoferToken')) and (not any(item for item in response.meta["cookieJar"] if item["name"] == "token")):
            reason = "Missing token cookie"
            spider.logger.info('Spider %s retrying' % reason)
            return self._retry(request,reason, spider) or response
        return response

class CouponsSpiderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, or item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Request or item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)


class CouponsDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    def __init__(self):
        mailfrom=settings.get("MAIL_ADDRESS")
        smtpport=settings.get("MAIL_PORT")
        smtpuser=settings.get("MAIL_USER")
        smtppass=settings.get("MAIL_PASSWORD")
        smtphost=settings.get("SMTP_HOST")

        self.mailer = MailSender(mailfrom=mailfrom,smtphost=smtphost,
                smtpport=smtpport,smtpuser=smtpuser,smtppass=smtppass)
        

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        s.cookie = ""
        if sys.platform == "linux" or sys.platform == "linux2":
            s.display = Display(visible=0, size=(800, 600))
            s.display.start()
            logging.info("Virtual Display Initiated")
        chrome_options = Options()
        if crawler.spider.undetectable:
            s.driver = uc.Chrome()
            if crawler.spider.proxy:
                proxyauth_plugin_path = s.create_proxyauth_extension(
                    proxy_host=crawler.settings.get('SELENIUM_PROXY_HOST'),
                    proxy_port=crawler.settings.get('SELENIUM_PROXY_PORT'),
                    proxy_username=f"lum-customer-{s.user}-ip-{s.ip}-zone-{s.zone}",
                    proxy_password=crawler.settings.get('SELENIUM_PROXY_PASSWORD'),
                    scheme='http')

                options = uc.ChromeOptions()
                options.add_extension(proxyauth_plugin_path)
                s.driver = uc.Chrome(options=options)
        else:
            # driver_location = "/usr/bin/chromedriver"
            driver_location = which('chromedriver')
            # binary_location = "/usr/bin/google-chrome"
            userAgent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.56 Safari/537.36"
            # chrome_options.binary_location = binary_location
            chrome_options.add_argument(f'user-agent={userAgent}')
            chrome_options.add_argument("--ignore-certificate-errors")
            chrome_options.add_argument("--ignore-ssl-errors")
            chrome_options.add_argument("--headless" )
            chrome_options.add_argument("--no-sandbox")
            chrome_options.add_argument("--disable-dev-shm-usage")
            s.driver = webdriver.Chrome(executable_path=driver_location,chrome_options=chrome_options)  # your chosen driver
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

    def create_proxyauth_extension(self,
                                   proxy_host,
                                   proxy_port,
                                   proxy_username,
                                   proxy_password,
                                   scheme='http',
                                   plugin_path=None):
        """Proxy Auth Extension
        args:
            proxy_host (str): domain or ip address, ie proxy.domain.com
            proxy_port (int): port
            proxy_username (str): auth username
            proxy_password (str): auth password
        kwargs:
            scheme (str): proxy scheme, default http
            plugin_path (str): absolute path of the extension

        return str -> plugin_path
        """
        if plugin_path is None:
            file = './chrome_proxy_helper'
            if not os.path.exists(file):
                os.mkdir(file)
            plugin_path = file + '/%s_%s@%s_%s.zip' % (
                proxy_username, proxy_password, proxy_host, proxy_port)

        manifest_json = """
        {
            "version": "1.0.0",
            "manifest_version": 2,
            "name": "Chrome Proxy",
            "permissions": [
                "proxy",
                "tabs",
                "unlimitedStorage",
                "storage",
                "<all_urls>",
                "webRequest",
                "webRequestBlocking"
            ],
            "background": {
                "scripts": ["background.js"]
            },
            "minimum_chrome_version":"22.0.0"
        }
        """
        background_js = string.Template("""
        var config = {
                mode: "fixed_servers",
                rules: {
                singleProxy: {
                    scheme: "${scheme}",
                    host: "${host}",
                    port: parseInt(${port})
                },
                bypassList: ["foobar.com"]
                }
            };

        chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

        function callbackFn(details) {
            return {
                authCredentials: {
                    username: "${username}",
                    password: "${password}"
                }
            };
        }

        chrome.webRequest.onAuthRequired.addListener(
                    callbackFn,
                    {urls: ["<all_urls>"]},
                    ['blocking']
        );
        """).substitute(
            host=proxy_host,
            port=proxy_port,
            username=proxy_username,
            password=proxy_password,
            scheme=scheme,
        )
        with zipfile.ZipFile(plugin_path, 'w') as zp:
            zp.writestr("manifest.json", manifest_json)
            zp.writestr("background.js", background_js)

        return plugin_path

    def popElement(self,interactElement):
        try:
            element = WebDriverWait(self.driver, 10).until(
                EC.presence_of_element_located((By.ID, interactElement)))
            self.driver.execute_script("arguments[0].click();", element)
        except Exception as ex:
            logging.error(ex)
            self.driver.save_screenshot(f"{settings.get('SCREENSHOTS_PATH')}{interactElement}_click_error.png")
            n = os.path.join(settings.get('SCREENSHOTS_PATH'), f"{interactElement}_PageSave.html")
            f = codecs.open(n, "w", "utf-8")
            h = self.driver.page_source
            f.write(h)


    def xpath_pop_element(self, sel):
        try:
            element = WebDriverWait(self.driver, 10).until(
                EC.presence_of_element_located((By.XPATH, sel)))
            self.driver.execute_script("arguments[0].click();", element)
        except Exception as ex:
            logging.error(ex)
            self.driver.save_screenshot(f"{settings.get('SCREENSHOTS_PATH')}{interactElement}_click_error.png")
            n = os.path.join(settings.get('SCREENSHOTS_PATH'), f"{interactElement}_PageSave.html")
            f = codecs.open(n, "w", "utf-8")
            h = self.driver.page_source
            f.write(h)

            
    def selenium_login(self,usrEId,pwdEId,username,password,spider):
        try:
            usrElement = WebDriverWait(self.driver, 10).until(
                EC.presence_of_element_located((By.ID, usrEId)))
            usrElement.send_keys(username)
            if spider.name == 'ashmoret':
                element = WebDriverWait(self.driver, 10).until(
                    EC.presence_of_element_located((By.XPATH, '//*[@id="f_login"]/div[4]/input')))
                self.driver.execute_script("arguments[0].click();", element)
              
            self.driver.find_element_by_id(pwdEId).send_keys(password,Keys.ENTER)
            
            self.cookie = self.driver.get_cookies()

        except TimeoutException as timeex:
            logging.error(timeex)
        except NoSuchElementException as noElementex:
            logging.error(noElementex)

    def process_request(self, request, spider):
        # only process tagged request or delete this if you want all
        if not (request.meta.get('selenium') or spider.undetectable):   
            return
        if (not request.meta.get('login')) and (spider.name == 'hvr'):
            for k in self.cookie:
                self.driver.add_cookie(k)
        self.driver.get(request.url)
        if request.meta.get('scroll'):
            self.scroll()
        if spider.wait:
            try:
                elementId = spider.elementId
                element_present = EC.presence_of_element_located((By.ID, elementId))

                if request.meta.get('elementId'):
                    elementId = request.meta.get('elementId')
                    element_present = EC.presence_of_element_located((By.ID, elementId))


                if request.meta.get('elementClass'):
                    elementId = request.meta.get('elementClass')
                    element_present = EC.presence_of_element_located((By.CLASS_NAME,elementId))

                    
                WebDriverWait(self.driver, 2).until(element_present)
            except TimeoutException:
                spider.logger.error('Spider %s took too long to load' % spider.name)
                return
        if request.meta.get('interactElement'):
            self.popElement(request.meta.get('interactElement'))
        if request.meta.get("interact-xpath"):
            self.xpath_pop_element(request.meta.get("interact-xpath"))
        if request.meta.get('login'):
            self.selenium_login(spider.usrEId,spider.pwdEId,spider.username,spider.password,spider)
        body = self.driver.page_source
        url = request.url
        response = HtmlResponse(url, body=body, encoding='utf-8', request=request)
        response.meta['cookieJar'] = self.driver.get_cookies()
        if request.meta.get("script"):
            response.meta['script_response'] = self.driver.execute_script(request.meta.get("script"))
        return response

    def scroll(self):
        SCROLL_PAUSE_TIME = 2

        # Get scroll height
        last_height = self.driver.execute_script("return document.body.scrollHeight")
        
        main_scroll_count = 0
        while True:
            # Scroll down to bottom
            self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

            # Wait to load page
            time.sleep(SCROLL_PAUSE_TIME)
            # Calculate new scroll height and compare with last scroll height
            new_height = self.driver.execute_script("return document.body.scrollHeight")
            main_scroll_count = main_scroll_count + 1
            if new_height == last_height:
                break
            last_height = new_height

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
        return self.mailer.send(to=settings.get("EMAIL_LIST"), cc=settings.get("CC_LIST"), subject=f"IGROUP Coupon Scraping - Spider {spider.name} status",body=f"Spider {spider.name} started at {datetime.now().strftime('%m/%d/%Y, %H:%M:%S')}")

    def spider_closed(self, spider):
        spider.logger.info('Spider closed: %s' % spider.name)
        if self.driver:
            self.driver.close()
            self.driver = None
        if sys.platform == "linux" or sys.platform == "linux2":
            self.display.stop()
            spider.logger.info("Virtual Display killed")
        return self.mailer.send(to=settings.get("EMAIL_LIST"), cc=settings.get("CC_LIST"), subject=f"IGROUP Coupon Scraping - Spider {spider.name} status",body=f"Spider {spider.name} closed at {datetime.now().strftime('%m/%d/%Y, %H:%M:%S')}")