gallery-dl/gallery_dl/extractor/slideshare.py

# -*- coding: utf-8 -*-

# Copyright 2016-2021 Mike Fährmann, Leonardo Taccari
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License version 2 as
# published by the Free Software Foundation.

"""Extractors for https://www.slideshare.net/"""

from .common import Extractor, Message
from .. import text


class SlidesharePresentationExtractor(Extractor):
    """Extractor for images from a presentation on slideshare.net"""
    category = "slideshare"
    subcategory = "presentation"
    directory_fmt = ("{category}", "{user}")
    filename_fmt = "{presentation}-{num:>02}.{extension}"
    archive_fmt = "{presentation}_{num}"
    pattern = (r"(?:https?://)?(?:www\.)?slideshare\.net"
               r"/(?:mobile/)?([^/?#]+)/([^/?#]+)")
    test = (
        (("https://www.slideshare.net"
          "/Slideshare/get-started-with-slide-share"), {
            "url": "23685fb9b94b32c77a547d45dc3a82fe7579ea18",
            "content": "2e90a01c6ca225579ebf8f98ab46f97a28a5e45c",
        }),
        # long title
        (("https://www.slideshare.net/pragmaticsolutions/warum-sie-nicht-ihren"
          "-mitarbeitenden-ndern-sollten-sondern-ihr-managementsystem"), {
            "url": "cf70ca99f57f61affab47ebf8583eb564b21e3a7",
        }),
        # mobile URL
        (("https://www.slideshare.net"
          "/mobile/uqudent/introduction-to-fixed-prosthodontics"), {
            "url": "59993ad7b0cb93c73011547eedcd02c622649e9d",
        }),
    )

    def __init__(self, match):
        Extractor.__init__(self, match)
        self.user, self.presentation = match.groups()

    def items(self):
        page = self.request("https://www.slideshare.net/" + self.user +
                            "/" + self.presentation).text
        data = self.get_job_metadata(page)
        imgs = self.get_image_urls(page)
        data["count"] = len(imgs)
        yield Message.Directory, data
        for data["num"], url in enumerate(imgs, 1):
            yield Message.Url, url, text.nameext_from_url(url, data)

    def get_job_metadata(self, page):
        """Collect metadata for extractor-job"""
        descr, pos = text.extract(
            page, '<meta name="description" content="', '"')
        category, pos = text.extract(
            page, '<div class="metadata-item">', '</div>', pos)
        views, pos = text.extract(
            page, '<div class="metadata-item">', '</div>', pos)
        published, pos = text.extract(
            page, '<div class="metadata-item">', '</div>', pos)
        title, pos = text.extract(
            page, '<span class="j-title-breadcrumb">', '</span>', pos)
        alt_descr, pos = text.extract(
            page, '<p class="slideshow-description notranslate">', '</p>', pos)

        if descr.endswith("…") and alt_descr:
            descr = text.remove_html(alt_descr).strip()

        return {
            "user": self.user,
            "presentation": self.presentation,
            "title": text.unescape(title.strip()),
            "description": text.unescape(descr),
            "views": text.parse_int(views.rpartition(
                " views")[0].replace(",", "")),
            "published": published.strip(),
        }

    @staticmethod
    def get_image_urls(page):
        """Extract and return a list of all image-urls"""
        return list(text.extract_iter(page, 'data-full="', '"'))
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00			`# -- coding: utf-8 --`

[slideshare] fix extraction 2021-02-08 22:29:30 +01:00			`# Copyright 2016-2021 Mike Fährmann, Leonardo Taccari`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00			`#`
			`# This program is free software; you can redistribute it and/or modify`
			`# it under the terms of the GNU General Public License version 2 as`
			`# published by the Free Software Foundation.`

[slideshare] fix extraction 2021-04-15 17:15:59 +02:00			`"""Extractors for https://www.slideshare.net/"""`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00
			`from .common import Extractor, Message`
rename safe_int to parse_int; move parse_* to text module 2018-04-20 14:53:21 +02:00			`from .. import text`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00

fix extractor names 2018-04-18 18:06:30 +02:00			`class SlidesharePresentationExtractor(Extractor):`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00			`"""Extractor for images from a presentation on slideshare.net"""`
			`category = "slideshare"`
			`subcategory = "presentation"`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 2019-02-08 13:45:40 +01:00			`directory_fmt = ("{category}", "{user}")`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`filename_fmt = "{presentation}-{num:>02}.{extension}"`
set 'archive_fmt' values These are going to be used to create an unique id for each image. 2018-01-30 22:49:16 +01:00			`archive_fmt = "{presentation}_{num}"`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 2019-02-08 13:45:40 +01:00			`pattern = (r"(?:https?://)?(?:www\.)?slideshare\.net"`
remove '&' from URL patterns '/?&#' -> '/?#' and '?&#' -> '?#' According to https://www.ietf.org/rfc/rfc3986.txt, URLs are "organized hierarchically" by using "the slash ("/"), question mark ("?"), and number sign ("#") characters to delimit components" 2020-10-22 23:12:59 +02:00			`r"/(?:mobile/)?([^/?#]+)/([^/?#]+)")`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 2019-02-08 13:45:40 +01:00			`test = (`
[slideshare] support mobile URLs (closes #67) 2018-01-10 14:11:54 +01:00			`(("https://www.slideshare.net"`
			`"/Slideshare/get-started-with-slide-share"), {`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00			`"url": "23685fb9b94b32c77a547d45dc3a82fe7579ea18",`
update extractor test results 2021-11-01 02:58:53 +01:00			`"content": "2e90a01c6ca225579ebf8f98ab46f97a28a5e45c",`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00			`}),`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`# long title`
			`(("https://www.slideshare.net/pragmaticsolutions/warum-sie-nicht-ihren"`
			`"-mitarbeitenden-ndern-sollten-sondern-ihr-managementsystem"), {`
			`"url": "cf70ca99f57f61affab47ebf8583eb564b21e3a7",`
			`}),`
[slideshare] support mobile URLs (closes #67) 2018-01-10 14:11:54 +01:00			`# mobile URL`
			`(("https://www.slideshare.net"`
			`"/mobile/uqudent/introduction-to-fixed-prosthodontics"), {`
			`"url": "59993ad7b0cb93c73011547eedcd02c622649e9d",`
			`}),`
simplify extractor constants - single strings for URL patterns - tuples instead of lists for 'directory_fmt' and 'test' - single-tuple tests where applicable 2019-02-08 13:45:40 +01:00			`)`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00
			`def __init__(self, match):`
propagate 'match' to base extractor constructor 2019-02-11 13:31:10 +01:00			`Extractor.__init__(self, match)`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00			`self.user, self.presentation = match.groups()`

			`def items(self):`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`page = self.request("https://www.slideshare.net/" + self.user +`
			`"/" + self.presentation).text`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00			`data = self.get_job_metadata(page)`
			`imgs = self.get_image_urls(page)`
			`data["count"] = len(imgs)`
			`yield Message.Directory, data`
			`for data["num"], url in enumerate(imgs, 1):`
			`yield Message.Url, url, text.nameext_from_url(url, data)`

			`def get_job_metadata(self, page):`
			`"""Collect metadata for extractor-job"""`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`descr, pos = text.extract(`
			`page, '<meta name="description" content="', '"')`
[slideshare] fix extraction 2021-04-15 17:15:59 +02:00			`category, pos = text.extract(`
			`page, '<div class="metadata-item">', '</div>', pos)`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`views, pos = text.extract(`
[slideshare] fix extraction 2021-04-15 17:15:59 +02:00			`page, '<div class="metadata-item">', '</div>', pos)`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`published, pos = text.extract(`
[slideshare] fix extraction 2021-04-15 17:15:59 +02:00			`page, '<div class="metadata-item">', '</div>', pos)`
			`title, pos = text.extract(`
			`page, '<span class="j-title-breadcrumb">', '</span>', pos)`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`alt_descr, pos = text.extract(`
[slideshare] fix extraction 2021-04-15 17:15:59 +02:00			`page, '<p class="slideshow-description notranslate">', '</p>', pos)`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`if descr.endswith("…") and alt_descr:`
			`descr = text.remove_html(alt_descr).strip()`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`return {`
			`"user": self.user,`
			`"presentation": self.presentation,`
			`"title": text.unescape(title.strip()),`
			`"description": text.unescape(descr),`
[slideshare] fix extraction 2021-04-15 17:15:59 +02:00			`"views": text.parse_int(views.rpartition(`
			`" views")[0].replace(",", "")),`
			`"published": published.strip(),`
[slideshare] improve metadata; flake8 - added 'views' and 'published' keywords - fixed longer titles and descriptions 2017-12-13 21:15:05 +01:00			`}`
[slideshare] Add a new extractor for slideshare.net (#54) 2017-12-13 17:38:29 +01:00
			`@staticmethod`
			`def get_image_urls(page):`
			`"""Extract and return a list of all image-urls"""`
			`return list(text.extract_iter(page, 'data-full="', '"'))`