gallery-dl/gallery_dl/extractor/2chen.py

# -*- coding: utf-8 -*-

# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extractors for https://sturdychan.help/"""

from .common import Extractor, Message
from .. import text

BASE_PATTERN = r"(?:https?://)?(?:sturdychan.help|2chen\.(?:moe|club))"


class _2chenThreadExtractor(Extractor):
    """Extractor for 2chen threads"""
    category = "2chen"
    subcategory = "thread"
    root = "https://sturdychan.help"
    directory_fmt = ("{category}", "{board}", "{thread} {title}")
    filename_fmt = "{time} {filename}.{extension}"
    archive_fmt = "{board}_{thread}_{hash}_{time}"
    pattern = BASE_PATTERN + r"/([^/?#]+)/(\d+)"
    test = (
        ("https://sturdychan.help/tv/268929", {
            "pattern": r"https://sturdychan\.help/assets/images"
                       r"/src/\w{40}\.\w+$",
            "count": ">= 179",
            "keyword": {
                "board": "tv",
                "date": "type:datetime",
                "hash": r"re:[0-9a-f]{40}",
                "name": "Anonymous",
                "no": r"re:\d+",
                "thread": "268929",
                "time": int,
                "title": "「/ttg/ #118: 🇧🇷 edition」",
                "url": str,
            },
        }),
        ("https://2chen.club/tv/1"),
        ("https://2chen.moe/jp/303786"),
    )

    def __init__(self, match):
        Extractor.__init__(self, match)
        self.board, self.thread = match.groups()

    def items(self):
        url = "{}/{}/{}".format(self.root, self.board, self.thread)
        page = self.request(url, encoding="utf-8", notfound="thread").text
        data = self.metadata(page)
        yield Message.Directory, data

        for post in self.posts(page):

            url = post["url"]
            if not url:
                continue
            if url[0] == "/":
                url = self.root + url
            post["url"] = url = url.partition("?")[0]

            post.update(data)
            post["time"] = text.parse_int(post["date"].timestamp())
            yield Message.Url, url, text.nameext_from_url(
                post["filename"], post)

    def metadata(self, page):
        board, pos = text.extract(page, 'class="board">/', '/<')
        title = text.extract(page, "<h3>", "</h3>", pos)[0]
        return {
            "board" : board,
            "thread": self.thread,
            "title" : text.unescape(title),
        }

    def posts(self, page):
        """Return iterable with relevant posts"""
        return map(self.parse, text.extract_iter(
            page, 'class="glass media', '</article>'))

    def parse(self, post):
        extr = text.extract_from(post)
        return {
            "name"    : text.unescape(extr("<span>", "</span>")),
            "date"    : text.parse_datetime(
                extr("<time", "<").partition(">")[2],
                "%d %b %Y (%a) %H:%M:%S"
            ),
            "no"      : extr('href="#p', '"'),
            "url"     : extr('</a><a href="', '"'),
            "filename": text.unescape(extr('download="', '"')),
            "hash"    : extr('data-hash="', '"'),
        }


class _2chenBoardExtractor(Extractor):
    """Extractor for 2chen boards"""
    category = "2chen"
    subcategory = "board"
    root = "https://sturdychan.help"
    pattern = BASE_PATTERN + r"/([^/?#]+)(?:/catalog|/?$)"
    test = (
        ("https://sturdychan.help/co/", {
            "pattern": _2chenThreadExtractor.pattern
        }),
        ("https://2chen.moe/co"),
        ("https://2chen.club/tv"),
        ("https://2chen.moe/co/catalog"),
    )

    def __init__(self, match):
        Extractor.__init__(self, match)
        self.board = match.group(1)

    def items(self):
        url = "{}/{}/catalog".format(self.root, self.board)
        page = self.request(url, notfound="board").text
        data = {"_extractor": _2chenThreadExtractor}
        for thread in text.extract_iter(
                page, '<figure><a href="', '"'):
            yield Message.Queue, self.root + thread, data
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`# -- coding: utf-8 --`

			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`"""Extractors for https://sturdychan.help/"""`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00
			`from .common import Extractor, Message`
			`from .. import text`

[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`BASE_PATTERN = r"(?:https?://)?(?:sturdychan.help\|2chen\.(?:moe\|club))"`

[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00
			`class _2chenThreadExtractor(Extractor):`
			`"""Extractor for 2chen threads"""`
			`category = "2chen"`
			`subcategory = "thread"`
[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`root = "https://sturdychan.help"`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`directory_fmt = ("{category}", "{board}", "{thread} {title}")`
			`filename_fmt = "{time} {filename}.{extension}"`
[2chen] fix extraction (#3356) update 'archive_fmt' update tests update 'board' regex 2022-12-04 16:19:36 +01:00			`archive_fmt = "{board}_{thread}_{hash}_{time}"`
[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`pattern = BASE_PATTERN + r"/([^/?#]+)/(\d+)"`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`test = (`
[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`("https://sturdychan.help/tv/268929", {`
			`"pattern": r"https://sturdychan\.help/assets/images"`
			`r"/src/\w{40}\.\w+$",`
[2chen] fix extraction (#3356) update 'archive_fmt' update tests update 'board' regex 2022-12-04 16:19:36 +01:00			`"count": ">= 179",`
[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`"keyword": {`
			`"board": "tv",`
			`"date": "type:datetime",`
			`"hash": r"re:[0-9a-f]{40}",`
			`"name": "Anonymous",`
			`"no": r"re:\d+",`
			`"thread": "268929",`
			`"time": int,`
			`"title": "「/ttg/ #118: 🇧🇷 edition」",`
			`"url": str,`
			`},`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`}),`
[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`("https://2chen.club/tv/1"),`
[2chen] fix extraction (#3356) update 'archive_fmt' update tests update 'board' regex 2022-12-04 16:19:36 +01:00			`("https://2chen.moe/jp/303786"),`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`)`

			`def __init__(self, match):`
			`Extractor.__init__(self, match)`
			`self.board, self.thread = match.groups()`

			`def items(self):`
			`url = "{}/{}/{}".format(self.root, self.board, self.thread)`
[2chen] fix extraction (#3356) update 'archive_fmt' update tests update 'board' regex 2022-12-04 16:19:36 +01:00			`page = self.request(url, encoding="utf-8", notfound="thread").text`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`data = self.metadata(page)`
			`yield Message.Directory, data`
[2chen] fix file URLs 2022-12-15 18:05:32 +01:00
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`for post in self.posts(page):`
[2chen] fix file URLs 2022-12-15 18:05:32 +01:00
			`url = post["url"]`
			`if not url:`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`continue`
[2chen] fix file URLs 2022-12-15 18:05:32 +01:00			`if url[0] == "/":`
			`url = self.root + url`
			`post["url"] = url = url.partition("?")[0]`

[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`post.update(data)`
			`post["time"] = text.parse_int(post["date"].timestamp())`
[2chen] fix file URLs 2022-12-15 18:05:32 +01:00			`yield Message.Url, url, text.nameext_from_url(`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`post["filename"], post)`

			`def metadata(self, page):`
			`board, pos = text.extract(page, 'class="board">/', '/<')`
			`title = text.extract(page, "<h3>", "</h3>", pos)[0]`
			`return {`
			`"board" : board,`
			`"thread": self.thread,`
			`"title" : text.unescape(title),`
			`}`

			`def posts(self, page):`
			`"""Return iterable with relevant posts"""`
			`return map(self.parse, text.extract_iter(`
			`page, 'class="glass media', '</article>'))`

			`def parse(self, post):`
			`extr = text.extract_from(post)`
			`return {`
			`"name" : text.unescape(extr("<span>", "</span>")),`
			`"date" : text.parse_datetime(`
			`extr("<time", "<").partition(">")[2],`
			`"%d %b %Y (%a) %H:%M:%S"`
			`),`
			`"no" : extr('href="#p', '"'),`
[2chen] fix extraction (#3356) update 'archive_fmt' update tests update 'board' regex 2022-12-04 16:19:36 +01:00			`"url" : extr('</a><a href="', '"'),`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`"filename": text.unescape(extr('download="', '"')),`
			`"hash" : extr('data-hash="', '"'),`
			`}`


			`class _2chenBoardExtractor(Extractor):`
			`"""Extractor for 2chen boards"""`
			`category = "2chen"`
			`subcategory = "board"`
[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`root = "https://sturdychan.help"`
			`pattern = BASE_PATTERN + r"/([^/?#]+)(?:/catalog\|/?$)"`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`test = (`
[2chen] update domain to sturdychan.help 2023-04-19 13:54:44 +02:00			`("https://sturdychan.help/co/", {`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`"pattern": _2chenThreadExtractor.pattern`
			`}),`
			`("https://2chen.moe/co"),`
[2chen] add '.club' support (#3406) 2022-12-15 17:51:02 +01:00			`("https://2chen.club/tv"),`
			`("https://2chen.moe/co/catalog"),`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`)`

			`def __init__(self, match):`
			`Extractor.__init__(self, match)`
			`self.board = match.group(1)`

			`def items(self):`
			`url = "{}/{}/catalog".format(self.root, self.board)`
[2chen] fix extraction (#3356) update 'archive_fmt' update tests update 'board' regex 2022-12-04 16:19:36 +01:00			`page = self.request(url, notfound="board").text`
[2chen] Add 2chen.moe extractor (#2707) * [2chen] Add 2chen.moe extractor * change "==" to is * fix for "test_unique_pattern_matches" * fix regex pattern and group matching * fix regex again * [2chen] add 'reply_no' and 'hash' metadata and change 'filename_fmt' also made an entry in supportedsites.md * [2chen] unescape 'title' * [2chen] partition() -> rpartition() * [2chen] extract 'date' and 'name' metadata * [2chen] remove 'offset' argument * [2chen] do some changes * [2chen] do some more changes * [2chen] unescape 'name' and 'filename' 2022-10-04 22:18:13 +02:00			`data = {"_extractor": _2chenThreadExtractor}`
			`for thread in text.extract_iter(`
			`page, '<figure><a href="', '"'):`
			`yield Message.Queue, self.root + thread, data`