[extractor/common] Improve _form_hidden_inputs and rename to _hidden_inputs

2024-11-02 09:12:40 +01:00 · 2015-07-14 22:36:30 +06:00 · 2015-07-14 22:36:30 +06:00 · f8da79f828
commit f8da79f828
parent 9750e7d70e
11 changed files with 21 additions and 14 deletions
--- a/youtube_dl/extractor/common.py
+++ b/youtube_dl/extractor/common.py
@ -706,10 +706,17 @@ def _twitter_search_player(self, html):
                                      'twitter card player')

    @staticmethod
-    def _form_hidden_inputs(html):
-        return dict(re.findall(
-            r'<input\s+type="hidden"\s+name="([^"]+)"\s+(?:id="[^"]+"\s+)?value="([^"]*)"',
-            html))
+    def _hidden_inputs(html):
+        return dict([
+            (input.group('name'), input.group('value')) for input in re.finditer(
+                r'''(?x)
+                    <input\s+
+                        type=(?P<q_hidden>["\'])hidden(?P=q_hidden)\s+
+                        name=(?P<q_name>["\'])(?P<name>.+?)(?P=q_name)\s+
+                        (?:id=(?P<q_id>["\']).+?(?P=q_id)\s+)?
+                        value=(?P<q_value>["\'])(?P<value>.*?)(?P=q_value)
+                ''', html)
+        ])

    def _sort_formats(self, formats, field_preference=None):
        if not formats:
--- a/youtube_dl/extractor/gorillavid.py
+++ b/youtube_dl/extractor/gorillavid.py
@ -78,7 +78,7 @@ def _real_extract(self, url):
        if re.search(self._FILE_NOT_FOUND_REGEX, webpage) is not None:
            raise ExtractorError('Video %s does not exist' % video_id, expected=True)

-        fields = self._form_hidden_inputs(webpage)
+        fields = self._hidden_inputs(webpage)

        if fields['op'] == 'download1':
            countdown = int_or_none(self._search_regex(
--- a/youtube_dl/extractor/hostingbulk.py
+++ b/youtube_dl/extractor/hostingbulk.py
@ -58,7 +58,7 @@ def _real_extract(self, url):
            r'<img src="([^"]+)".+?class="pic"',
            webpage, 'thumbnail', fatal=False)

-        fields = self._form_hidden_inputs(webpage)
+        fields = self._hidden_inputs(webpage)

        request = compat_urllib_request.Request(url, urlencode_postdata(fields))
        request.add_header('Content-type', 'application/x-www-form-urlencoded')
--- a/youtube_dl/extractor/played.py
+++ b/youtube_dl/extractor/played.py
@ -38,7 +38,7 @@ def _real_extract(self, url):
        if m_error:
            raise ExtractorError(m_error.group('msg'), expected=True)

-        data = self._form_hidden_inputs(orig_webpage)
+        data = self._hidden_inputs(orig_webpage)

        self._sleep(2, video_id)

--- a/youtube_dl/extractor/primesharetv.py
+++ b/youtube_dl/extractor/primesharetv.py
@ -29,7 +29,7 @@ def _real_extract(self, url):
        if '>File not exist<' in webpage:
            raise ExtractorError('Video %s does not exist' % video_id, expected=True)

-        fields = self._form_hidden_inputs(webpage)
+        fields = self._hidden_inputs(webpage)

        headers = {
            'Referer': url,
--- a/youtube_dl/extractor/promptfile.py
+++ b/youtube_dl/extractor/promptfile.py
@ -35,7 +35,7 @@ def _real_extract(self, url):
            raise ExtractorError('Video %s does not exist' % video_id,
                                 expected=True)

-        fields = self._form_hidden_inputs(webpage)
+        fields = self._hidden_inputs(webpage)
        post = compat_urllib_parse.urlencode(fields)
        req = compat_urllib_request.Request(url, post)
        req.add_header('Content-type', 'application/x-www-form-urlencoded')
--- a/youtube_dl/extractor/shared.py
+++ b/youtube_dl/extractor/shared.py
@ -34,7 +34,7 @@ def _real_extract(self, url):
            raise ExtractorError(
                'Video %s does not exist' % video_id, expected=True)

-        download_form = self._form_hidden_inputs(webpage)
+        download_form = self._hidden_inputs(webpage)
        request = compat_urllib_request.Request(
            url, compat_urllib_parse.urlencode(download_form))
        request.add_header('Content-Type', 'application/x-www-form-urlencoded')
--- a/youtube_dl/extractor/twitch.py
+++ b/youtube_dl/extractor/twitch.py
@ -59,7 +59,7 @@ def _login(self):
        login_page = self._download_webpage(
            self._LOGIN_URL, None, 'Downloading login page')

-        login_form = self._form_hidden_inputs(login_page)
+        login_form = self._hidden_inputs(login_page)

        login_form.update({
            'login': username.encode('utf-8'),
--- a/youtube_dl/extractor/vimeo.py
+++ b/youtube_dl/extractor/vimeo.py
@ -452,7 +452,7 @@ def _login_list_password(self, page_url, list_id, webpage):
        password = self._downloader.params.get('videopassword', None)
        if password is None:
            raise ExtractorError('This album is protected by a password, use the --video-password option', expected=True)
-        fields = self._form_hidden_inputs(login_form)
+        fields = self._hidden_inputs(login_form)
        token = self._search_regex(r'xsrft[\s=:"\']+([^"\']+)', webpage, 'login token')
        fields['token'] = token
        fields['password'] = password
--- a/youtube_dl/extractor/vk.py
+++ b/youtube_dl/extractor/vk.py
@ -168,7 +168,7 @@ def _login(self):
        login_page = self._download_webpage(
            'https://vk.com', None, 'Downloading login page')

-        login_form = self._form_hidden_inputs(login_page)
+        login_form = self._hidden_inputs(login_page)

        login_form.update({
            'email': username.encode('cp1251'),
--- a/youtube_dl/extractor/vodlocker.py
+++ b/youtube_dl/extractor/vodlocker.py
@ -26,7 +26,7 @@ def _real_extract(self, url):
        video_id = self._match_id(url)
        webpage = self._download_webpage(url, video_id)

-        fields = self._form_hidden_inputs(webpage)
+        fields = self._hidden_inputs(webpage)

        if fields['op'] == 'download1':
            self._sleep(3, video_id)  # they do detect when requests happen too fast!