gallery-dl/gallery_dl/extractor/senmanga.py

# -*- coding: utf-8 -*-

# Copyright 2016-2017 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extract manga-chapters from from http://raw.senmanga.com/"""

from .common import Extractor, Message
from .. import text, util


class SenmangaChapterExtractor(Extractor):
    """Extractor for manga-chapters from raw.senmanga.com"""
    category = "senmanga"
    subcategory = "chapter"
    directory_fmt = ["{category}", "{manga}", "{chapter_string}"]
    filename_fmt = "{manga}_{chapter_string}_{page:>03}.{extension}"
    pattern = [r"(?:https?://)?raw\.senmanga\.com/([^/]+/[^/]+)"]
    test = [
        ("http://raw.senmanga.com/Bokura-wa-Minna-Kawaisou/37A/1", {
            "url": "5f95140ff511d8497e2ec08fa7267c6bb231faec",
            "keyword": "705d941a150765edb33cd2707074bd703a93788c",
            "content": "a791dda85ac0d37e3b36d754560cbb65b8dab5b9",
        }),
        ("http://raw.senmanga.com/Love-Lab/2016-03/1", {
            "url": "8347b9f00c14b864dd3c19a1f5ae52adb2ef00de",
            "keyword": "4e72e4ade57671ad0af9c8d81feeff4259d5bbec",
        }),
    ]
    root = "https://raw.senmanga.com"

    def __init__(self, match):
        Extractor.__init__(self)
        part = match.group(1)
        self.chapter_url = "{}/{}/".format(self.root, part)
        self.img_url = "{}/viewer/{}/".format(self.root, part)
        self.session.headers["Referer"] = self.chapter_url

    def items(self):
        data = self.get_job_metadata()
        yield Message.Version, 1
        yield Message.Directory, data
        for data["page"] in range(1, data["count"]+1):
            data["extension"] = None
            yield Message.Url, self.img_url + str(data["page"]), data

    def get_job_metadata(self):
        """Collect metadata for extractor-job"""
        page = self.request(self.chapter_url).text
        title, pos = text.extract(page, '<title>', '</title>')
        count, pos = text.extract(page, '</select> of ', ' ', pos)
        manga, pos = text.extract(title, '| Raw | ', '  |  Chapter ')
        chapter, pos = text.extract(title, '', ' |  Page ', pos)
        return {
            "manga": text.unescape(manga.replace("-", " ")),
            "chapter_string": chapter,
            "count": util.safe_int(count),
            "lang": "jp",
            "language": "Japanese",
        }
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00			`# -- coding: utf-8 --`

share extractor and downloader sessions There was never any "good" reason for the strict separation between extractors and downloaders. This change allows for reduced resource usage (probably unnoticeable) and less lines of code at the "cost" of tighter coupling. 2017-06-30 19:38:14 +02:00			`# Copyright 2016-2017 Mike Fährmann`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

			`"""Extract manga-chapters from from http://raw.senmanga.com/"""`

			`from .common import Extractor, Message`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`from .. import text, util`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00
code adjustments according to pep8 nr2 2017-02-01 00:53:19 +01:00
consistent extractor naming scheme + docstrings 2016-09-12 10:20:57 +02:00			`class SenmangaChapterExtractor(Extractor):`
			`"""Extractor for manga-chapters from raw.senmanga.com"""`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00			`category = "senmanga"`
			`subcategory = "chapter"`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`directory_fmt = ["{category}", "{manga}", "{chapter_string}"]`
			`filename_fmt = "{manga}_{chapter_string}_{page:>03}.{extension}"`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00			`pattern = [r"(?:https?://)?raw\.senmanga\.com/([^/]+/[^/]+)"]`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`test = [`
			`("http://raw.senmanga.com/Bokura-wa-Minna-Kawaisou/37A/1", {`
use consistent names for URL constants root := <scheme>://<host> base_url := <root>/<common path> 2017-11-06 20:56:49 +01:00			`"url": "5f95140ff511d8497e2ec08fa7267c6bb231faec",`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`"keyword": "705d941a150765edb33cd2707074bd703a93788c",`
Revert "[senmanga] fix extraction and download" This reverts commit 2ace5c7b3ce5e065a6624d619e643406fa60fbc6. 2017-10-24 00:22:05 +02:00			`"content": "a791dda85ac0d37e3b36d754560cbb65b8dab5b9",`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`}),`
			`("http://raw.senmanga.com/Love-Lab/2016-03/1", {`
use consistent names for URL constants root := <scheme>://<host> base_url := <root>/<common path> 2017-11-06 20:56:49 +01:00			`"url": "8347b9f00c14b864dd3c19a1f5ae52adb2ef00de",`
Revert "[senmanga] fix extraction and download" This reverts commit 2ace5c7b3ce5e065a6624d619e643406fa60fbc6. 2017-10-24 00:22:05 +02:00			`"keyword": "4e72e4ade57671ad0af9c8d81feeff4259d5bbec",`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`}),`
			`]`
use consistent names for URL constants root := <scheme>://<host> base_url := <root>/<common path> 2017-11-06 20:56:49 +01:00			`root = "https://raw.senmanga.com"`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00
			`def __init__(self, match):`
			`Extractor.__init__(self)`
			`part = match.group(1)`
use consistent names for URL constants root := <scheme>://<host> base_url := <root>/<common path> 2017-11-06 20:56:49 +01:00			`self.chapter_url = "{}/{}/".format(self.root, part)`
			`self.img_url = "{}/viewer/{}/".format(self.root, part)`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00			`self.session.headers["Referer"] = self.chapter_url`

			`def items(self):`
			`data = self.get_job_metadata()`
			`yield Message.Version, 1`
			`yield Message.Directory, data`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`for data["page"] in range(1, data["count"]+1):`
			`data["extension"] = None`
			`yield Message.Url, self.img_url + str(data["page"]), data`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00
			`def get_job_metadata(self):`
			`"""Collect metadata for extractor-job"""`
			`page = self.request(self.chapter_url).text`
			`title, pos = text.extract(page, '<title>', '</title>')`
Revert "[senmanga] fix extraction and download" This reverts commit 2ace5c7b3ce5e065a6624d619e643406fa60fbc6. 2017-10-24 00:22:05 +02:00			`count, pos = text.extract(page, '</select> of ', ' ', pos)`
			`manga, pos = text.extract(title, '\| Raw \| ', ' \| Chapter ')`
			`chapter, pos = text.extract(title, '', ' \| Page ', pos)`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00			`return {`
Revert "[senmanga] fix extraction and download" This reverts commit 2ace5c7b3ce5e065a6624d619e643406fa60fbc6. 2017-10-24 00:22:05 +02:00			`"manga": text.unescape(manga.replace("-", " ")),`
			`"chapter_string": chapter,`
[senmanga] improve metadata 2017-10-04 18:33:32 +02:00			`"count": util.safe_int(count),`
[senmanga] add chapter extractor 2016-08-02 17:42:22 +02:00			`"lang": "jp",`
			`"language": "Japanese",`
			`}`