yt-dlp/yt_dlp/extractor/urplay.py

# coding: utf-8
from __future__ import unicode_literals

from .common import InfoExtractor
from ..utils import (
    dict_get,
    int_or_none,
    unified_timestamp,
)


class URPlayIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?ur(?:play|skola)\.se/(?:program|Produkter)/(?P<id>[0-9]+)'
    _TESTS = [{
        'url': 'https://urplay.se/program/203704-ur-samtiden-livet-universum-och-rymdens-markliga-musik-om-vetenskap-kritiskt-tankande-och-motstand',
        'md5': 'ff5b0c89928f8083c74bbd5099c9292d',
        'info_dict': {
            'id': '203704',
            'ext': 'mp4',
            'title': 'UR Samtiden - Livet, universum och rymdens märkliga musik : Om vetenskap, kritiskt tänkande och motstånd',
            'description': 'md5:5344508a52aa78c1ced6c1b8b9e44e9a',
            'timestamp': 1513292400,
            'upload_date': '20171214',
            'series': 'UR Samtiden - Livet, universum och rymdens märkliga musik',
            'duration': 2269,
            'categories': ['Kultur & historia'],
            'tags': ['Kritiskt tänkande', 'Vetenskap', 'Vetenskaplig verksamhet'],
            'episode': 'Om vetenskap, kritiskt tänkande och motstånd',
        },
    }, {
        'url': 'https://urskola.se/Produkter/190031-Tripp-Trapp-Trad-Sovkudde',
        'info_dict': {
            'id': '190031',
            'ext': 'mp4',
            'title': 'Tripp, Trapp, Träd : Sovkudde',
            'description': 'md5:b86bffdae04a7e9379d1d7e5947df1d1',
            'timestamp': 1440086400,
            'upload_date': '20150820',
            'series': 'Tripp, Trapp, Träd',
            'duration': 865,
            'tags': ['Sova'],
            'episode': 'Sovkudde',
        },
    }, {
        'url': 'http://urskola.se/Produkter/155794-Smasagor-meankieli-Grodan-i-vida-varlden',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)
        url = url.replace('skola.se/Produkter', 'play.se/program')
        webpage = self._download_webpage(url, video_id)
        vid = int(video_id)
        accessible_episodes = self._parse_json(self._html_search_regex(
            r'data-react-class="routes/Product/components/ProgramContainer/ProgramContainer"[^>]+data-react-props="({.+?})"',
            webpage, 'urplayer data'), video_id)['accessibleEpisodes']
        urplayer_data = next(e for e in accessible_episodes if e.get('id') == vid)
        episode = urplayer_data['title']

        host = self._download_json('http://streaming-loadbalancer.ur.se/loadbalancer.json', video_id)['redirect']
        formats = []
        urplayer_streams = urplayer_data.get('streamingInfo', {})

        for k, v in urplayer_streams.get('raw', {}).items():
            if not (k in ('sd', 'hd') and isinstance(v, dict)):
                continue
            file_http = v.get('location')
            if file_http:
                formats.extend(self._extract_wowza_formats(
                    'http://%s/%splaylist.m3u8' % (host, file_http),
                    video_id, skip_protocols=['f4m', 'rtmp', 'rtsp']))
        self._sort_formats(formats)

        subtitles = {}
        subs = urplayer_streams.get("sweComplete", {}).get("tt", {}).get("location")
        if subs:
            subtitles.setdefault('Svenska', []).append({
                'url': subs,
            })

        image = urplayer_data.get('image') or {}
        thumbnails = []
        for k, v in image.items():
            t = {
                'id': k,
                'url': v,
            }
            wh = k.split('x')
            if len(wh) == 2:
                t.update({
                    'width': int_or_none(wh[0]),
                    'height': int_or_none(wh[1]),
                })
            thumbnails.append(t)

        series = urplayer_data.get('series') or {}
        series_title = dict_get(series, ('seriesTitle', 'title')) or dict_get(urplayer_data, ('seriesTitle', 'mainTitle'))

        return {
            'id': video_id,
            'subtitles': subtitles,
            'title': '%s : %s' % (series_title, episode) if series_title else episode,
            'description': urplayer_data.get('description'),
            'thumbnails': thumbnails,
            'timestamp': unified_timestamp(urplayer_data.get('publishedAt')),
            'series': series_title,
            'formats': formats,
            'duration': int_or_none(urplayer_data.get('duration')),
            'categories': urplayer_data.get('categories'),
            'tags': urplayer_data.get('keywords'),
            'season': series.get('label'),
            'episode': episode,
            'episode_number': int_or_none(urplayer_data.get('episodeNumber')),
        }
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`# coding: utf-8`
			`from __future__ import unicode_literals`

			`from .common import InfoExtractor`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`from ..utils import (`
			`dict_get,`
			`int_or_none,`
			`unified_timestamp,`
			`)`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00

			`class URPlayIE(InfoExtractor):`
[urplay] add supprt for urskola.se and fix subtitle extraction(closes #10915) 2016-10-19 16:05:39 +02:00			`_VALID_URL = r'https?://(?:www\.)?ur(?:play\|skola)\.se/(?:program\|Produkter)/(?P<id>[0-9]+)'`
			`_TESTS = [{`
[urplay] Extract timestamp (#20235) 2019-03-05 20:11:32 +01:00			`'url': 'https://urplay.se/program/203704-ur-samtiden-livet-universum-och-rymdens-markliga-musik-om-vetenskap-kritiskt-tankande-och-motstand',`
			`'md5': 'ff5b0c89928f8083c74bbd5099c9292d',`
			`'info_dict': {`
			`'id': '203704',`
			`'ext': 'mp4',`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`'title': 'UR Samtiden - Livet, universum och rymdens märkliga musik : Om vetenskap, kritiskt tänkande och motstånd',`
[urplay] Extract timestamp (#20235) 2019-03-05 20:11:32 +01:00			`'description': 'md5:5344508a52aa78c1ced6c1b8b9e44e9a',`
Update to reflect website changes. 2020-10-27 15:27:51 +01:00			`'timestamp': 1513292400,`
			`'upload_date': '20171214',`
Update to ytdl-2021.03.02 2021-03-02 09:05:59 +01:00			`'series': 'UR Samtiden - Livet, universum och rymdens märkliga musik',`
			`'duration': 2269,`
			`'categories': ['Kultur & historia'],`
			`'tags': ['Kritiskt tänkande', 'Vetenskap', 'Vetenskaplig verksamhet'],`
			`'episode': 'Om vetenskap, kritiskt tänkande och motstånd',`
[urplay] Extract timestamp (#20235) 2019-03-05 20:11:32 +01:00			`},`
			`}, {`
			`'url': 'https://urskola.se/Produkter/190031-Tripp-Trapp-Trad-Sovkudde',`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`'info_dict': {`
			`'id': '190031',`
			`'ext': 'mp4',`
			`'title': 'Tripp, Trapp, Träd : Sovkudde',`
			`'description': 'md5:b86bffdae04a7e9379d1d7e5947df1d1',`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`'timestamp': 1440086400,`
[urplay] Extract timestamp (#20235) 2019-03-05 20:11:32 +01:00			`'upload_date': '20150820',`
Update to ytdl-2021.03.02 2021-03-02 09:05:59 +01:00			`'series': 'Tripp, Trapp, Träd',`
			`'duration': 865,`
			`'tags': ['Sova'],`
			`'episode': 'Sovkudde',`
[urplay] add supprt for urskola.se and fix subtitle extraction(closes #10915) 2016-10-19 16:05:39 +02:00			`},`
			`}, {`
			`'url': 'http://urskola.se/Produkter/155794-Smasagor-meankieli-Grodan-i-vida-varlden',`
			`'only_matching': True,`
			`}]`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00
			`def _real_extract(self, url):`
			`video_id = self._match_id(url)`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`url = url.replace('skola.se/Produkter', 'play.se/program')`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`webpage = self._download_webpage(url, video_id)`
Update to ytdl-2021.03.02 2021-03-02 09:05:59 +01:00			`vid = int(video_id)`
			`accessible_episodes = self._parse_json(self._html_search_regex(`
Update to ytdl-2021.02.10 Except: [archiveorg] Fix and improve extraction (5fc53690cbe6abb11941a3f4846b566a7472753e) 2021-02-10 22:22:55 +01:00			`r'data-react-class="routes/Product/components/ProgramContainer/ProgramContainer"[^>]+data-react-props="({.+?})"',`
Update to ytdl-2021.03.02 2021-03-02 09:05:59 +01:00			`webpage, 'urplayer data'), video_id)['accessibleEpisodes']`
			`urplayer_data = next(e for e in accessible_episodes if e.get('id') == vid)`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`episode = urplayer_data['title']`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00
Update to reflect website changes. 2020-10-27 15:27:51 +01:00			`host = self._download_json('http://streaming-loadbalancer.ur.se/loadbalancer.json', video_id)['redirect']`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`formats = []`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`urplayer_streams = urplayer_data.get('streamingInfo', {})`

			`for k, v in urplayer_streams.get('raw', {}).items():`
			`if not (k in ('sd', 'hd') and isinstance(v, dict)):`
			`continue`
			`file_http = v.get('location')`
			`if file_http:`
[urplay] add supprt for urskola.se and fix subtitle extraction(closes #10915) 2016-10-19 16:05:39 +02:00			`formats.extend(self._extract_wowza_formats(`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`'http://%s/%splaylist.m3u8' % (host, file_http),`
			`video_id, skip_protocols=['f4m', 'rtmp', 'rtsp']))`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`self._sort_formats(formats)`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`subtitles = {}`
Update to reflect website changes. 2020-10-27 15:27:51 +01:00			`subs = urplayer_streams.get("sweComplete", {}).get("tt", {}).get("location")`
			`if subs:`
			`subtitles.setdefault('Svenska', []).append({`
			`'url': subs,`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`})`

Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`image = urplayer_data.get('image') or {}`
			`thumbnails = []`
			`for k, v in image.items():`
			`t = {`
			`'id': k,`
			`'url': v,`
			`}`
			`wh = k.split('x')`
			`if len(wh) == 2:`
			`t.update({`
			`'width': int_or_none(wh[0]),`
			`'height': int_or_none(wh[1]),`
			`})`
			`thumbnails.append(t)`

			`series = urplayer_data.get('series') or {}`
			`series_title = dict_get(series, ('seriesTitle', 'title')) or dict_get(urplayer_data, ('seriesTitle', 'mainTitle'))`

[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`return {`
			`'id': video_id,`
			`'subtitles': subtitles,`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`'title': '%s : %s' % (series_title, episode) if series_title else episode,`
			`'description': urplayer_data.get('description'),`
			`'thumbnails': thumbnails,`
			`'timestamp': unified_timestamp(urplayer_data.get('publishedAt')),`
			`'series': series_title,`
[urplay] Add new extractor(closes #9332) 2016-06-29 21:19:31 +02:00			`'formats': formats,`
Merge 'ytdl-org/youtube-dl/master' release 2020.11.19 Old Extractors left behind: VLivePlaylistIE YoutubeSearchURLIE YoutubeShowIE YoutubeFavouritesIE If removing old extractors, make corresponding changes in docs/supportedsites.md youtube_dlc/extractor/extractors.py Not merged: .github/ISSUE_TEMPLATE/1_broken_site.md .github/ISSUE_TEMPLATE/2_site_support_request.md .github/ISSUE_TEMPLATE/3_site_feature_request.md .github/ISSUE_TEMPLATE/4_bug_report.md .github/ISSUE_TEMPLATE/5_feature_request.md test/test_all_urls.py youtube_dlc/version.py Changelog 2020-11-19 20:22:59 +01:00			`'duration': int_or_none(urplayer_data.get('duration')),`
			`'categories': urplayer_data.get('categories'),`
			`'tags': urplayer_data.get('keywords'),`
			`'season': series.get('label'),`
			`'episode': episode,`
			`'episode_number': int_or_none(urplayer_data.get('episodeNumber')),`
[urplay] fix typo and check with flake8 2016-06-30 12:30:42 +02:00			`}`