Manouchehri · January 24, 2025 13:35 · Feb 12, 2015 · Feb 12, 2015
diff --git a/acceptgzipped.py b/acceptgzipped.py
@@ -17,9 +17,7 @@
 response = urllib.request.urlopen(req)
 
 if response.info().get('Content-Encoding') == 'gzip':
-    buf = io.BytesIO(response.read())
-    f = gzip.GzipFile(fileobj=buf)
-    pagedata = f.read()
+    pagedata = gzip.decompress(response.read())
 elif response.info().get('Content-Encoding') == 'deflate':
     pagedata = response.read()
 elif response.info().get('Content-Encoding'):

diff --git a/acceptgzipped.py b/acceptgzipped.py
@@ -0,0 +1,32 @@
+__author__ = 'David Manouchehri'
+
+from bs4 import BeautifulSoup
+import urllib.request
+import gzip
+import io
+
+url = 'http://yoururlgoesherehopefullythisisntavalidurl.com/pages.html'
+
+headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
+           'Accept-Encoding': 'gzip, deflate',
+           'Accept-Language': 'en-US,en;q=0.5',
+           'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0'}
+
+
+req = urllib.request.Request(url, headers=headers)
+response = urllib.request.urlopen(req)
+
+if response.info().get('Content-Encoding') == 'gzip':
+    buf = io.BytesIO(response.read())
+    f = gzip.GzipFile(fileobj=buf)
+    pagedata = f.read()
+elif response.info().get('Content-Encoding') == 'deflate':
+    pagedata = response.read()
+elif response.info().get('Content-Encoding'):
+    print('Encoding type unknown')
+else:
+    pagedata = response.read()
+
+soup = BeautifulSoup(pagedata)
+
+print(soup.prettify())