gallery-dl/gallery_dl/extractor/sankaku.py

# -*- coding: utf-8 -*-

# Copyright 2014, 2015 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extract images from https://chan.sankakucomplex.com/"""

from .common import AsynchronousExtractor, Message
from .. import text

class SankakuExtractor(AsynchronousExtractor):

    category = "sankaku"
    directory_fmt = ["{category}", "{tags}"]
    filename_fmt = "{category}_{id}_{md5}.{extension}"
    pattern = [r"(?:https?://)?chan\.sankakucomplex\.com/\?tags=([^&]+)"]
    url = "https://chan.sankakucomplex.com/"

    def __init__(self, match):
        AsynchronousExtractor.__init__(self)
        self.tags = text.unquote(match.group(1))
        self.session.headers["User-Agent"] = (
            "Mozilla/5.0 Gecko/20100101 Firefox/40.0"
        )

    def items(self):
        data = self.get_job_metadata()
        yield Message.Version, 1
        yield Message.Headers, self.session.headers
        yield Message.Directory, data
        for image in self.get_images():
            image.update(data)
            yield Message.Url, image["file-url"], image

    def get_job_metadata(self):
        """Collect metadata for extractor-job"""
        return {
            "category": self.category,
            "tags": self.tags,
        }

    def get_images(self):
        params = {
            "tags": self.tags,
            "page": 1,
        }
        while True:
            count = 0
            page = self.request(self.url, params=params).text
            pos = text.extract(page, '<div id=more-popular-posts-link>', '')[1]
            while True:
                image_id, pos = text.extract(page,
                    '<span class="thumb blacklisted" id=p', '>', pos)
                if not image_id:
                    break
                image = self.get_image_metadata(image_id)
                count += 1
                yield image
            if count < 20:
                return
            params["page"] += 1

    def get_image_metadata(self, image_id):
        url = "https://chan.sankakucomplex.com/post/show/" + image_id
        page = self.request(url).text
        image_url, pos = text.extract(page, '<li>Original: <a href="', '"')
        width    , pos = text.extract(page, '>', 'x', pos)
        height   , pos = text.extract(page, '', ' ', pos)
        data = text.nameext_from_url(image_url, {
            "id": image_id,
            "file-url": "https:" + image_url,
            "width": width,
            "height": height,
        })
        data["md5"] = data["name"]
        return data
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`# -- coding: utf-8 --`
initial commit 2014-10-12 21:56:44 +02:00
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`# Copyright 2014, 2015 Mike Fährmann`
			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

			`"""Extract images from https://chan.sankakucomplex.com/"""`

[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`from .common import AsynchronousExtractor, Message`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`from .. import text`

[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`class SankakuExtractor(AsynchronousExtractor):`
initial commit 2014-10-12 21:56:44 +02:00
update all other extractors 2015-11-21 04:26:30 +01:00			`category = "sankaku"`
			`directory_fmt = ["{category}", "{tags}"]`
			`filename_fmt = "{category}_{id}_{md5}.{extension}"`
			`pattern = [r"(?:https?://)?chan\.sankakucomplex\.com/\?tags=([^&]+)"]`
initial commit 2014-10-12 21:56:44 +02:00			`url = "https://chan.sankakucomplex.com/"`

[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`def __init__(self, match):`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`AsynchronousExtractor.__init__(self)`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`self.tags = text.unquote(match.group(1))`
			`self.session.headers["User-Agent"] = (`
			`"Mozilla/5.0 Gecko/20100101 Firefox/40.0"`
			`)`
initial commit 2014-10-12 21:56:44 +02:00
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`def items(self):`
			`data = self.get_job_metadata()`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`yield Message.Version, 1`
			`yield Message.Headers, self.session.headers`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`yield Message.Directory, data`
			`for image in self.get_images():`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`image.update(data)`
			`yield Message.Url, image["file-url"], image`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00
			`def get_job_metadata(self):`
			`"""Collect metadata for extractor-job"""`
			`return {`
update all other extractors 2015-11-21 04:26:30 +01:00			`"category": self.category,`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`"tags": self.tags,`
			`}`

			`def get_images(self):`
			`params = {`
			`"tags": self.tags,`
			`"page": 1,`
			`}`
initial commit 2014-10-12 21:56:44 +02:00			`while True:`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`count = 0`
			`page = self.request(self.url, params=params).text`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`pos = text.extract(page, '<div id=more-popular-posts-link>', '')[1]`
initial commit 2014-10-12 21:56:44 +02:00			`while True:`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`image_id, pos = text.extract(page,`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`'<span class="thumb blacklisted" id=p', '>', pos)`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`if not image_id:`
initial commit 2014-10-12 21:56:44 +02:00			`break`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`image = self.get_image_metadata(image_id)`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00			`count += 1`
			`yield image`
			`if count < 20:`
			`return`
initial commit 2014-10-12 21:56:44 +02:00			`params["page"] += 1`
[sankaku] re-enable extractor 2015-11-09 02:29:33 +01:00
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`def get_image_metadata(self, image_id):`
			`url = "https://chan.sankakucomplex.com/post/show/" + image_id`
			`page = self.request(url).text`
			`image_url, pos = text.extract(page, '<li>Original: <a href="', '"')`
			`width , pos = text.extract(page, '>', 'x', pos)`
			`height , pos = text.extract(page, '', ' ', pos)`
code cleanup to use nameext_from_url 2015-11-16 17:32:26 +01:00			`data = text.nameext_from_url(image_url, {`
[sankaku] always use correct file-url 2015-11-10 00:55:01 +01:00			`"id": image_id,`
			`"file-url": "https:" + image_url,`
			`"width": width,`
			`"height": height,`
code cleanup to use nameext_from_url 2015-11-16 17:32:26 +01:00			`})`
			`data["md5"] = data["name"]`
			`return data`