gallery-dl/gallery_dl/extractor/foolslide.py

# -*- coding: utf-8 -*-

# Copyright 2016-2023 Mike Fährmann
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extractors for FoOlSlide based sites"""

from .common import BaseExtractor, Message
from .. import text, util


class FoolslideExtractor(BaseExtractor):
    """Base class for FoOlSlide extractors"""
    basecategory = "foolslide"

    def __init__(self, match):
        BaseExtractor.__init__(self, match)
        self.gallery_url = self.root + match.group(match.lastindex)

    def request(self, url):
        return BaseExtractor.request(
            self, url, encoding="utf-8", method="POST", data={"adult": "true"})

    @staticmethod
    def parse_chapter_url(url, data):
        info = url.partition("/read/")[2].rstrip("/").split("/")
        lang = info[1].partition("-")[0]
        data["lang"] = lang
        data["language"] = util.code_to_language(lang)
        data["volume"] = text.parse_int(info[2])
        data["chapter"] = text.parse_int(info[3])
        data["chapter_minor"] = "." + info[4] if len(info) >= 5 else ""
        data["title"] = data["chapter_string"].partition(":")[2].strip()
        return data


BASE_PATTERN = FoolslideExtractor.update({
    "powermanga": {
        "root": "https://read.powermanga.org",
        "pattern": r"read(?:er)?\.powermanga\.org",
    },
})


class FoolslideChapterExtractor(FoolslideExtractor):
    """Base class for chapter extractors for FoOlSlide based sites"""
    subcategory = "chapter"
    directory_fmt = ("{category}", "{manga}", "{chapter_string}")
    filename_fmt = (
        "{manga}_c{chapter:>03}{chapter_minor:?//}_{page:>03}.{extension}")
    archive_fmt = "{id}"
    pattern = BASE_PATTERN + r"(/read/[^/?#]+/[a-z-]+/\d+/\d+(?:/\d+)?)"
    test = (
        (("https://read.powermanga.org"
          "/read/one_piece_digital_colour_comics/en/0/75/"), {
            "url": "854c5817f8f767e1bccd05fa9d58ffb5a4b09384",
            "keyword": "a60c42f2634b7387899299d411ff494ed0ad6dbe",
        }),
    )

    def items(self):
        page = self.request(self.gallery_url).text
        data = self.metadata(page)
        imgs = self.images(page)

        data["count"] = len(imgs)
        data["chapter_id"] = text.parse_int(imgs[0]["chapter_id"])

        yield Message.Directory, data
        enum = util.enumerate_reversed if self.config(
            "page-reverse") else enumerate
        for data["page"], image in enum(imgs, 1):
            try:
                url = image["url"]
                del image["url"]
                del image["chapter_id"]
                del image["thumb_url"]
            except KeyError:
                pass
            for key in ("height", "id", "size", "width"):
                image[key] = text.parse_int(image[key])
            data.update(image)
            text.nameext_from_url(data["filename"], data)
            yield Message.Url, url, data

    def metadata(self, page):
        extr = text.extract_from(page)
        extr('<h1 class="tbtitle dnone">', '')
        return self.parse_chapter_url(self.gallery_url, {
            "manga"         : text.unescape(extr('title="', '"')).strip(),
            "chapter_string": text.unescape(extr('title="', '"')),
        })

    def images(self, page):
        return util.json_loads(text.extr(page, "var pages = ", ";"))


class FoolslideMangaExtractor(FoolslideExtractor):
    """Base class for manga extractors for FoOlSlide based sites"""
    subcategory = "manga"
    categorytransfer = True
    pattern = BASE_PATTERN + r"(/series/[^/?#]+)"
    test = (
        (("https://read.powermanga.org"
          "/series/one_piece_digital_colour_comics/"), {
            "count": ">= 1",
            "keyword": {
                "chapter": int,
                "chapter_minor": str,
                "chapter_string": str,
                "group": "PowerManga",
                "lang": "en",
                "language": "English",
                "manga": "One Piece Digital Colour Comics",
                "title": str,
                "volume": int,
            },
        }),
    )

    def items(self):
        page = self.request(self.gallery_url).text

        chapters = self.chapters(page)
        if not self.config("chapter-reverse", False):
            chapters.reverse()

        for chapter, data in chapters:
            data["_extractor"] = FoolslideChapterExtractor
            yield Message.Queue, chapter, data

    def chapters(self, page):
        extr = text.extract_from(page)
        manga = text.unescape(extr('<h1 class="title">', '</h1>')).strip()
        author = extr('<b>Author</b>: ', '<br')
        artist = extr('<b>Artist</b>: ', '<br')

        results = []
        while True:
            url = extr('<div class="title"><a href="', '"')
            if not url:
                return results
            results.append((url, self.parse_chapter_url(url, {
                "manga": manga, "author": author, "artist": artist,
                "chapter_string": extr('title="', '"'),
                "group"         : extr('title="', '"'),
            })))
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00			`# -- coding: utf-8 --`

replace json.loads with direct calls to JSONDecoder.decode 2023-02-07 23:14:53 +01:00			`# Copyright 2016-2023 Mike Fährmann`
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

[foolslide] dynamically generate extractor classes 2019-02-03 23:54:17 +01:00			`"""Extractors for FoOlSlide based sites"""`
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00
[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`from .common import BaseExtractor, Message`
generalize extractor creation code 2019-03-07 22:55:26 +01:00			`from .. import text, util`
add manga extractors to all foolslide-based modules 2017-04-11 21:03:40 +02:00

[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`class FoolslideExtractor(BaseExtractor):`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`"""Base class for FoOlSlide extractors"""`
add common config category for boorus and foolslide 2017-08-29 22:42:48 +02:00			`basecategory = "foolslide"`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00
[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`def __init__(self, match):`
			`BaseExtractor.__init__(self, match)`
			`self.gallery_url = self.root + match.group(match.lastindex)`

[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`def request(self, url):`
[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`return BaseExtractor.request(`
[foolslide] dynamically generate extractor classes 2019-02-03 23:54:17 +01:00			`self, url, encoding="utf-8", method="POST", data={"adult": "true"})`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00
			`@staticmethod`
			`def parse_chapter_url(url, data):`
[foolslide] fix minor chapter number 2017-09-25 12:59:24 +02:00			`info = url.partition("/read/")[2].rstrip("/").split("/")`
[puremashiro] add chapter- and manga-extractor (closes #66) Also adds support for region subtags in language codes (e.g. en-us) 2018-01-07 21:42:28 +01:00			`lang = info[1].partition("-")[0]`
			`data["lang"] = lang`
			`data["language"] = util.code_to_language(lang)`
rename safe_int to parse_int; move parse_* to text module 2018-04-20 14:53:21 +02:00			`data["volume"] = text.parse_int(info[2])`
			`data["chapter"] = text.parse_int(info[3])`
[foolslide] fix minor chapter number 2017-09-25 12:59:24 +02:00			`data["chapter_minor"] = "." + info[4] if len(info) >= 5 else ""`
use 'text.extract_from()' in a few places 2019-04-19 23:02:29 +02:00			`data["title"] = data["chapter_string"].partition(":")[2].strip()`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`return data`


[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`BASE_PATTERN = FoolslideExtractor.update({`
			`"powermanga": {`
			`"root": "https://read.powermanga.org",`
			`"pattern": r"read(?:er)?\.powermanga\.org",`
			`},`
			`})`


			`class FoolslideChapterExtractor(FoolslideExtractor):`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`"""Base class for chapter extractors for FoOlSlide based sites"""`
[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`subcategory = "chapter"`
update extractor class hierarchies - let the GalleryExtractor class inherit directly from Extractor - make ChapterExtractor a subclass of GalleryExtractor - change enumeration field names of GalleryExtractors to 'num' 2019-10-16 18:12:07 +02:00			`directory_fmt = ("{category}", "{manga}", "{chapter_string}")`
[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`filename_fmt = (`
			`"{manga}_c{chapter:>03}{chapter_minor:?//}_{page:>03}.{extension}")`
set 'archive_fmt' values These are going to be used to create an unique id for each image. 2018-01-30 22:49:16 +01:00			`archive_fmt = "{id}"`
[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`pattern = BASE_PATTERN + r"(/read/[^/?#]+/[a-z-]+/\d+/\d+(?:/\d+)?)"`
			`test = (`
			`(("https://read.powermanga.org"`
			`"/read/one_piece_digital_colour_comics/en/0/75/"), {`
			`"url": "854c5817f8f767e1bccd05fa9d58ffb5a4b09384",`
			`"keyword": "a60c42f2634b7387899299d411ff494ed0ad6dbe",`
			`}),`
			`)`
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00
			`def items(self):`
update extractor class hierarchies - let the GalleryExtractor class inherit directly from Extractor - make ChapterExtractor a subclass of GalleryExtractor - change enumeration field names of GalleryExtractors to 'num' 2019-10-16 18:12:07 +02:00			`page = self.request(self.gallery_url).text`
change Chapter and MangaExtractor classes - unify and simplify constructors - rename get_metadata and get_images to just metadata() and images() - rename self.url to chapter_url and manga_url 2019-02-11 18:38:47 +01:00			`data = self.metadata(page)`
			`imgs = self.images(page)`
improved foolslide-based extractors - this includes dokireader, fallenangels, jaiminisbox, powermanga, sensescans, worldthree, yonkouprod, gomanga, yomanga - added 'chapter_string', 'chapter_id', 'chapter_minor' and 'count' keywords - changed the 'chapter' keyword to always be just a number - changed the default directory format 2017-02-16 23:42:30 +01:00
			`data["count"] = len(imgs)`
rename safe_int to parse_int; move parse_* to text module 2018-04-20 14:53:21 +02:00			`data["chapter_id"] = text.parse_int(imgs[0]["chapter_id"])`
improved foolslide-based extractors - this includes dokireader, fallenangels, jaiminisbox, powermanga, sensescans, worldthree, yonkouprod, gomanga, yomanga - added 'chapter_string', 'chapter_id', 'chapter_minor' and 'count' keywords - changed the 'chapter' keyword to always be just a number - changed the default directory format 2017-02-16 23:42:30 +01:00
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00			`yield Message.Directory, data`
implement 'page-reverse' option (#1854) 2021-09-18 02:15:42 +02:00			`enum = util.enumerate_reversed if self.config(`
			`"page-reverse") else enumerate`
			`for data["page"], image in enum(imgs, 1):`
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00			`try:`
			`url = image["url"]`
			`del image["url"]`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`del image["chapter_id"]`
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00			`del image["thumb_url"]`
			`except KeyError:`
			`pass`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`for key in ("height", "id", "size", "width"):`
rename safe_int to parse_int; move parse_* to text module 2018-04-20 14:53:21 +02:00			`image[key] = text.parse_int(image[key])`
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00			`data.update(image)`
			`text.nameext_from_url(data["filename"], data)`
			`yield Message.Url, url, data`

change Chapter and MangaExtractor classes - unify and simplify constructors - rename get_metadata and get_images to just metadata() and images() - rename self.url to chapter_url and manga_url 2019-02-11 18:38:47 +01:00			`def metadata(self, page):`
use 'text.extract_from()' in a few places 2019-04-19 23:02:29 +02:00			`extr = text.extract_from(page)`
			`extr('<h1 class="tbtitle dnone">', '')`
update extractor class hierarchies - let the GalleryExtractor class inherit directly from Extractor - make ChapterExtractor a subclass of GalleryExtractor - change enumeration field names of GalleryExtractors to 'num' 2019-10-16 18:12:07 +02:00			`return self.parse_chapter_url(self.gallery_url, {`
use 'text.extract_from()' in a few places 2019-04-19 23:02:29 +02:00			`"manga" : text.unescape(extr('title="', '"')).strip(),`
			`"chapter_string": text.unescape(extr('title="', '"')),`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`})`
add base class for foolslide based sites 2016-10-23 17:51:12 +02:00
change Chapter and MangaExtractor classes - unify and simplify constructors - rename get_metadata and get_images to just metadata() and images() - rename self.url to chapter_url and manga_url 2019-02-11 18:38:47 +01:00			`def images(self, page):`
replace json.loads with direct calls to JSONDecoder.decode 2023-02-07 23:14:53 +01:00			`return util.json_loads(text.extr(page, "var pages = ", ";"))`
add manga extractors to all foolslide-based modules 2017-04-11 21:03:40 +02:00

[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`class FoolslideMangaExtractor(FoolslideExtractor):`
add manga extractors to all foolslide-based modules 2017-04-11 21:03:40 +02:00			`"""Base class for manga extractors for FoOlSlide based sites"""`
[foolslide] use BaseExtractor 2021-01-26 18:50:32 +01:00			`subcategory = "manga"`
			`categorytransfer = True`
			`pattern = BASE_PATTERN + r"(/series/[^/?#]+)"`
			`test = (`
			`(("https://read.powermanga.org"`
			`"/series/one_piece_digital_colour_comics/"), {`
			`"count": ">= 1",`
			`"keyword": {`
			`"chapter": int,`
			`"chapter_minor": str,`
			`"chapter_string": str,`
			`"group": "PowerManga",`
			`"lang": "en",`
			`"language": "English",`
			`"manga": "One Piece Digital Colour Comics",`
			`"title": str,`
			`"volume": int,`
			`},`
			`}),`
			`)`

			`def items(self):`
			`page = self.request(self.gallery_url).text`

			`chapters = self.chapters(page)`
			`if not self.config("chapter-reverse", False):`
			`chapters.reverse()`

			`for chapter, data in chapters:`
			`data["_extractor"] = FoolslideChapterExtractor`
			`yield Message.Queue, chapter, data`
add manga extractors to all foolslide-based modules 2017-04-11 21:03:40 +02:00
simplify code by using a MangaExtractor base class 2017-05-20 11:27:43 +02:00			`def chapters(self, page):`
use 'text.extract_from()' in a few places 2019-04-19 23:02:29 +02:00			`extr = text.extract_from(page)`
			`manga = text.unescape(extr('<h1 class="title">', '</h1>')).strip()`
			`author = extr('<b>Author</b>: ', '<br')`
			`artist = extr('<b>Artist</b>: ', '<br')`
[foolslide] extract manga metadata enables chapter filtering for - https://kobato.hologfx.com/ - https://jaiminisbox.com/ - https://reader.kireicake.com/ - https://powermanga.org/ - https://reader.seaotterscans.com/ - http://sensescans.com/ - http://www.slide.world-three.org/ 2017-09-12 16:44:38 +02:00
			`results = []`
			`while True:`
use 'text.extract_from()' in a few places 2019-04-19 23:02:29 +02:00			`url = extr('<div class="title"><a href="', '"')`
[foolslide] extract manga metadata enables chapter filtering for - https://kobato.hologfx.com/ - https://jaiminisbox.com/ - https://reader.kireicake.com/ - https://powermanga.org/ - https://reader.seaotterscans.com/ - http://sensescans.com/ - http://www.slide.world-three.org/ 2017-09-12 16:44:38 +02:00			`if not url:`
			`return results`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`results.append((url, self.parse_chapter_url(url, {`
[foolslide] extract manga metadata enables chapter filtering for - https://kobato.hologfx.com/ - https://jaiminisbox.com/ - https://reader.kireicake.com/ - https://powermanga.org/ - https://reader.seaotterscans.com/ - http://sensescans.com/ - http://www.slide.world-three.org/ 2017-09-12 16:44:38 +02:00			`"manga": manga, "author": author, "artist": artist,`
use 'text.extract_from()' in a few places 2019-04-19 23:02:29 +02:00			`"chapter_string": extr('title="', '"'),`
			`"group" : extr('title="', '"'),`
[foolslide] restructure; convert suitable values to int 2017-09-24 16:57:47 +02:00			`})))`