Attempt at patching the get_page_text bug identified by @aboutaaron in #94. Also added a unittest to make sure it's working in the future.

palewire · palewire · commit 3bc13407d86c · 2014-03-23T13:36:18.000-07:00
diff --git a/documentcloud/__init__.py b/documentcloud/__init__.py
@@ -745,7 +745,7 @@ def get_page_text_url(self, page):
         """
         template = self.resources.page.get('text')
         url = template.replace("{page}", str(page))
-        return self._get_url(url)
+        return url
 
     def get_page_text(self, page):
         """
diff --git a/test.py b/test.py
@@ -237,6 +237,17 @@ def test_public_actions(self):
         # for all the old documents in the database.
         #self.assertEqual(hashlib.sha1(pdf).hexdigest(), obj.file_hash)
 
+        # Text
+        self.assertEqual(
+            obj.get_page_text_url(1),
+            'https://www.documentcloud.org/documents/74103/pages/\
+report-of-the-calpers-special-review-p1.txt'
+        )
+        self.assertEqual(
+            document.get_page_text(1).split("\n")[0].strip(), 
+            "Report of the CalPERS Special Review"
+        )
+
         # Images
         self.assertTrue(len(obj.small_image) > 0)
         self.assertTrue(len(obj.thumbnail_image) > 0)