ANY23-356 Updated xercesImpl, crawler4j
authorHans <firedrake93@gmail.com>
Mon, 2 Jul 2018 14:52:09 +0000 (09:52 -0500)
committerHans <firedrake93@gmail.com>
Mon, 2 Jul 2018 23:24:38 +0000 (18:24 -0500)
core/src/main/java/org/apache/any23/rdf/RDFUtils.java
plugins/basic-crawler/pom.xml
plugins/basic-crawler/src/main/java/org/apache/any23/plugin/crawler/DefaultWebCrawler.java
plugins/html-scraper/pom.xml

index d323fb3..242984b 100644 (file)
@@ -528,10 +528,10 @@ public class RDFUtils {
             new java.net.URI(href.trim());
             return true;
         } catch (IllegalArgumentException e) {
-            LOG.debug("Error processing href: {}", href, e);
+            LOG.trace("Error processing href: {}", href, e);
             return false;
         } catch (URISyntaxException e) {
-            LOG.debug("Error interpreting href: {} as URI.", href, e);
+            LOG.trace("Error interpreting href: {} as URI.", href, e);
             return false;
         }
     }
index 58063ee..b864b92 100644 (file)
@@ -74,7 +74,7 @@
     <dependency>
       <groupId>edu.uci.ics</groupId>
       <artifactId>crawler4j</artifactId>
-      <version>3.4</version>
+      <version>4.4.0</version>
       <type>jar</type>
       <scope>compile</scope>
     </dependency>
index 2451286..2e43445 100644 (file)
@@ -47,12 +47,17 @@ public class DefaultWebCrawler extends WebCrawler {
     /**
      * Override this method to specify whether the given URL should be visited or not.
      */
+
     @Override
-    public boolean shouldVisit(WebURL url) {
-        if (url.getURL() == null) return false;
+    public boolean shouldVisit(Page referringPage, WebURL url) {
+        if (!super.shouldVisit(referringPage, url))
+            return false;
+        if (url.getURL() == null)
+            return false;
         final String href = url.getURL().toLowerCase();
-        if( ! href.startsWith( sharedData.getSeed() ) ) return false;
-        return pattern == null || ! pattern.matcher(href).matches();
+        if (!href.startsWith(sharedData.getSeed()))
+            return false;
+        return pattern == null || !pattern.matcher(href).matches();
     }
 
     /**
index 5f47adb..e24f6b6 100644 (file)
@@ -56,7 +56,7 @@
     <dependency>
       <groupId>xerces</groupId>
       <artifactId>xercesImpl</artifactId>
-      <version>2.9.1</version>
+      <version>2.12.0</version>
       <scope>provided</scope>
       <exclusions>
         <exclusion>