gitextract_g2lraicp/ ├── .gitattributes ├── .gitignore ├── .travis.yml ├── CHANGELOG.md ├── GOOSE-LICENSE.txt ├── LICENSE ├── MANIFEST.in ├── README.rst ├── docs/ │ ├── Makefile │ ├── _templates/ │ │ ├── sidebarintro.html │ │ └── sidebarlogo.html │ ├── _themes/ │ │ ├── .gitignore │ │ ├── LICENSE │ │ ├── README.rst │ │ ├── flask_theme_support.py │ │ ├── kr/ │ │ │ ├── layout.html │ │ │ ├── relations.html │ │ │ ├── static/ │ │ │ │ └── flasky.css_t │ │ │ └── theme.conf │ │ └── kr_small/ │ │ ├── layout.html │ │ ├── static/ │ │ │ └── flasky.css_t │ │ └── theme.conf │ ├── conf.py │ ├── index.rst │ ├── make.bat │ └── user_guide/ │ ├── advanced.rst │ ├── api.rst │ ├── contributors.rst │ └── quickstart.rst ├── download_corpora.py ├── newspaper/ │ ├── __init__.py │ ├── api.py │ ├── article.py │ ├── cleaners.py │ ├── configuration.py │ ├── extractors.py │ ├── images.py │ ├── mthreading.py │ ├── network.py │ ├── nlp.py │ ├── outputformatters.py │ ├── parsers.py │ ├── resources/ │ │ ├── misc/ │ │ │ ├── google_sources.txt │ │ │ ├── popular_sources.txt │ │ │ ├── stopwords-nlp-en.txt │ │ │ └── useragents.txt │ │ └── text/ │ │ ├── stopwords-ar.txt │ │ ├── stopwords-be.txt │ │ ├── stopwords-bg.txt │ │ ├── stopwords-da.txt │ │ ├── stopwords-de.txt │ │ ├── stopwords-el.txt │ │ ├── stopwords-en.txt │ │ ├── stopwords-es.txt │ │ ├── stopwords-et.txt │ │ ├── stopwords-fa.txt │ │ ├── stopwords-fi.txt │ │ ├── stopwords-fr.txt │ │ ├── stopwords-he.txt │ │ ├── stopwords-hi.txt │ │ ├── stopwords-hr.txt │ │ ├── stopwords-hu.txt │ │ ├── stopwords-id.txt │ │ ├── stopwords-it.txt │ │ ├── stopwords-ja.txt │ │ ├── stopwords-ko.txt │ │ ├── stopwords-lt.txt │ │ ├── stopwords-mk.txt │ │ ├── stopwords-nb.txt │ │ ├── stopwords-nl.txt │ │ ├── stopwords-no.txt │ │ ├── stopwords-pl.txt │ │ ├── stopwords-pt.txt │ │ ├── stopwords-ro.txt │ │ ├── stopwords-ru.txt │ │ ├── stopwords-sl.txt │ │ ├── stopwords-sr.txt │ │ ├── stopwords-sv.txt │ │ ├── stopwords-sw.txt │ │ ├── stopwords-th.txt │ │ ├── stopwords-tr.txt │ │ ├── stopwords-uk.txt │ │ ├── stopwords-vi.txt │ │ └── stopwords-zh.txt │ ├── settings.py │ ├── source.py │ ├── text.py │ ├── urls.py │ ├── utils.py │ ├── version.py │ └── videos/ │ ├── __init__.py │ ├── extractors.py │ └── videos.py ├── requirements.txt ├── setup.py └── tests/ ├── __init__.py ├── benchmarks.py ├── data/ │ ├── fulltext_domain_list.txt │ ├── fulltext_url_list.txt │ ├── html/ │ │ ├── 247wallst.com1.html │ │ ├── 247wallst.com2.html │ │ ├── about.com1.html │ │ ├── about.com2.html │ │ ├── adoption.com1.html │ │ ├── al.com1.html │ │ ├── al.com2.html │ │ ├── ap_meta_refresh.html │ │ ├── apartmenttherapy.com1.html │ │ ├── apartmenttherapy.com2.html │ │ ├── arabic_article.html │ │ ├── architecturaldigest.com1.html │ │ ├── architecturaldigest.com2.html │ │ ├── avclub.com1.html │ │ ├── avclub.com2.html │ │ ├── backstage.com1.html │ │ ├── backstage.com2.html │ │ ├── bhg.com1.html │ │ ├── bhg.com2.html │ │ ├── bloomberg.com1.html │ │ ├── bostonherald.com1.html │ │ ├── bostonherald.com2.html │ │ ├── businessinsider.com1.html │ │ ├── businessinsider.com2.html │ │ ├── businessweek.com1.html │ │ ├── businessweek.com2.html │ │ ├── chinese_article.html │ │ ├── cleveland.com1.html │ │ ├── cleveland.com2.html │ │ ├── cnn_article.html │ │ ├── cnn_main_site.html │ │ ├── cntraveler.com1.html │ │ ├── cntraveler.com2.html │ │ ├── coolhunting.com1.html │ │ ├── coolhunting.com2.html │ │ ├── cricket.com.au1.html │ │ ├── cricket.com.au2.html │ │ ├── dailycaller.com1.html │ │ ├── dailycaller.com2.html │ │ ├── dailystar.co.uk1.html │ │ ├── dailystar.co.uk2.html │ │ ├── dallasnews.com1.html │ │ ├── dallasnews.com2.html │ │ ├── details.com1.html │ │ ├── details.com2.html │ │ ├── elle.com1.html │ │ ├── elle.com2.html │ │ ├── flavorwire.com1.html │ │ ├── flavorwire.com2.html │ │ ├── fool.com1.html │ │ ├── fool.com2.html │ │ ├── foxbusiness.com1.html │ │ ├── foxbusiness.com2.html │ │ ├── foxnews.com1.html │ │ ├── foxnews.com2.html │ │ ├── glamour.com1.html │ │ ├── glamour.com2.html │ │ ├── globalnews.ca1.html │ │ ├── globalnews.ca2.html │ │ ├── google_meta_refresh.html │ │ ├── gq.com1.html │ │ ├── gq.com2.html │ │ ├── graziadaily.co.uk1.html │ │ ├── graziadaily.co.uk2.html │ │ ├── gulflive.com1.html │ │ ├── gulflive.com2.html │ │ ├── huffingtonpost.com1.html │ │ ├── japanese_article.html │ │ ├── japanese_article2.html │ │ ├── lifebuzz.com1.html │ │ ├── lifebuzz.com2.html │ │ ├── livescience.com1.html │ │ ├── livescience.com2.html │ │ ├── mashable.com1.html │ │ ├── mashable.com2.html │ │ ├── mlive.com1.html │ │ ├── mlive.com2.html │ │ ├── newyorker.com1.html │ │ ├── nj.com1.html │ │ ├── nola.com1.html │ │ ├── nydailynews.com1.html │ │ ├── nypost.com1.html │ │ ├── nypost.com2.html │ │ ├── ok.co.uk1.html │ │ ├── ok.co.uk2.html │ │ ├── oregonlive.com1.html │ │ ├── oregonlive.com2.html │ │ ├── parsely.com1.html │ │ ├── parsely.com2.html │ │ ├── pe.com1.html │ │ ├── pewresearch.org1.html │ │ ├── pewresearch.org2.html │ │ ├── pixable.com1.html │ │ ├── pixable.com2.html │ │ ├── pixelmonkey.org1.html │ │ ├── pixelmonkey.org2.html │ │ ├── readwrite.com1.html │ │ ├── recipe.com1.html │ │ ├── recipe.com2.html │ │ ├── reuters.com1.html │ │ ├── reuters.com2.html │ │ ├── reuters.com3.html │ │ ├── reuters.com4.html │ │ ├── self.com1.html │ │ ├── self.com2.html │ │ ├── sitepoint.com1.html │ │ ├── sitepoint.com2.html │ │ ├── slate.com1.html │ │ ├── slate.com2.html │ │ ├── space.com1.html │ │ ├── space.com2.html │ │ ├── spanish_article.html │ │ ├── syracuse.com1.html │ │ ├── syracuse.com2.html │ │ ├── talkingpointsmemo.com1.html │ │ ├── technologyreview.com1.html │ │ ├── technologyreview.com2.html │ │ ├── teenvogue.com1.html │ │ ├── teenvogue.com2.html │ │ ├── telegraph.co.uk1.html │ │ ├── telegraph.co.uk2.html │ │ ├── thai_article.html │ │ ├── theatlantic.com1.html │ │ ├── theatlantic.com2.html │ │ ├── theatlanticcities.com1.html │ │ ├── theatlanticcities.com2.html │ │ ├── thedailybeast.com1.html │ │ ├── thedailybeast.com2.html │ │ ├── thedebrief.co.uk1.html │ │ ├── thedebrief.co.uk2.html │ │ ├── theglobeandmail.com1.html │ │ ├── theglobeandmail.com2.html │ │ ├── thekitchn.com1.html │ │ ├── thekitchn.com2.html │ │ ├── thenextweb.com1.html │ │ ├── theonion.com1.html │ │ ├── theroot.com1.html │ │ ├── tnr.com1.html │ │ ├── tnr.com2.html │ │ ├── uproxx.com1.html │ │ ├── uproxx.com2.html │ │ ├── upworthy.com1.html │ │ ├── upworthy.com2.html │ │ ├── usnews.com1.html │ │ ├── usnews.com2.html │ │ ├── vanityfair.com1.html │ │ ├── vogue.de1.html │ │ ├── vogue.de2.html │ │ ├── wetpaint.com1.html │ │ ├── wetpaint.com2.html │ │ ├── wired.com1.html │ │ ├── wired.com2.html │ │ ├── wnet.org1.html │ │ ├── wnet.org2.html │ │ ├── yahoo_main_site.html │ │ ├── youbeauty.com1.html │ │ └── youbeauty.com2.html │ ├── test_prepare_urls.txt │ ├── test_urls.txt │ ├── test_urls_pubdate.txt │ └── text/ │ ├── 247wallst.com1.txt │ ├── 247wallst.com2.txt │ ├── about.com1.txt │ ├── about.com2.txt │ ├── adoption.com1.txt │ ├── al.com1.txt │ ├── al.com2.txt │ ├── apartmenttherapy.com1.txt │ ├── apartmenttherapy.com2.txt │ ├── arabic.txt │ ├── architecturaldigest.com1.txt │ ├── architecturaldigest.com2.txt │ ├── avclub.com1.txt │ ├── avclub.com2.txt │ ├── backstage.com1.txt │ ├── backstage.com2.txt │ ├── bhg.com1.txt │ ├── bhg.com2.txt │ ├── bloomberg.com1.txt │ ├── bostonherald.com1.txt │ ├── bostonherald.com2.txt │ ├── businessinsider.com1.txt │ ├── businessinsider.com2.txt │ ├── businessweek.com1.txt │ ├── businessweek.com2.txt │ ├── chinese.txt │ ├── cleveland.com1.txt │ ├── cleveland.com2.txt │ ├── cnn.txt │ ├── cnn_summary.txt │ ├── cntraveler.com1.txt │ ├── cntraveler.com2.txt │ ├── coolhunting.com1.txt │ ├── cricket.com.au1.txt │ ├── cricket.com.au2.txt │ ├── dailycaller.com1.txt │ ├── dailycaller.com2.txt │ ├── dailystar.co.uk1.txt │ ├── dailystar.co.uk2.txt │ ├── dallasnews.com1.txt │ ├── dallasnews.com2.txt │ ├── details.com1.txt │ ├── details.com2.txt │ ├── elle.com1.txt │ ├── elle.com2.txt │ ├── flavorwire.com1.txt │ ├── flavorwire.com2.txt │ ├── fool.com1.txt │ ├── fool.com2.txt │ ├── foxbusiness.com1.txt │ ├── foxbusiness.com2.txt │ ├── foxnews.com1.txt │ ├── foxnews.com2.txt │ ├── foxnews.com3.txt │ ├── foxnews.com4.txt │ ├── glamour.com1.txt │ ├── glamour.com2.txt │ ├── globalnews.ca1.txt │ ├── globalnews.ca2.txt │ ├── gq.com1.txt │ ├── gq.com2.txt │ ├── graziadaily.co.uk1.txt │ ├── graziadaily.co.uk2.txt │ ├── gulflive.com1.txt │ ├── gulflive.com2.txt │ ├── huffingtonpost.com1.txt │ ├── japanese.txt │ ├── japanese2.txt │ ├── lifebuzz.com1.txt │ ├── lifebuzz.com2.txt │ ├── livescience.com1.txt │ ├── livescience.com2.txt │ ├── mashable.com1.txt │ ├── mashable.com2.txt │ ├── mlive.com1.txt │ ├── mlive.com2.txt │ ├── newyorker.com1.txt │ ├── nj.com1.txt │ ├── nola.com1.txt │ ├── nydailynews.com1.txt │ ├── nypost.com1.txt │ ├── nypost.com2.txt │ ├── ok.co.uk1.txt │ ├── ok.co.uk2.txt │ ├── oregonlive.com1.txt │ ├── oregonlive.com2.txt │ ├── parsely.com1.txt │ ├── parsely.com2.txt │ ├── pe.com1.txt │ ├── pewresearch.org1.txt │ ├── pewresearch.org2.txt │ ├── pixable.com1.txt │ ├── pixable.com2.txt │ ├── pixelmonkey.org1.txt │ ├── pixelmonkey.org2.txt │ ├── readwrite.com1.txt │ ├── recipe.com1.txt │ ├── recipe.com2.txt │ ├── reuters.com1.txt │ ├── reuters.com2.txt │ ├── reuters.com3.txt │ ├── reuters.com4.txt │ ├── reuters.com5.txt │ ├── reuters.com6.txt │ ├── self.com1.txt │ ├── self.com2.txt │ ├── sitepoint.com1.txt │ ├── sitepoint.com2.txt │ ├── slate.com1.txt │ ├── slate.com2.txt │ ├── space.com1.txt │ ├── space.com2.txt │ ├── spanish.txt │ ├── syracuse.com1.txt │ ├── syracuse.com2.txt │ ├── talkingpointsmemo.com1.txt │ ├── technologyreview.com1.txt │ ├── technologyreview.com2.txt │ ├── teenvogue.com1.txt │ ├── teenvogue.com2.txt │ ├── telegraph.co.uk1.txt │ ├── telegraph.co.uk2.txt │ ├── thai.txt │ ├── theatlantic.com1.txt │ ├── theatlantic.com2.txt │ ├── theatlanticcities.com1.txt │ ├── theatlanticcities.com2.txt │ ├── thedailybeast.com1.txt │ ├── thedailybeast.com2.txt │ ├── thedebrief.co.uk1.txt │ ├── thedebrief.co.uk2.txt │ ├── theglobeandmail.com1.txt │ ├── theglobeandmail.com2.txt │ ├── thekitchn.com1.txt │ ├── thekitchn.com2.txt │ ├── thenextweb.com1.txt │ ├── theonion.com1.txt │ ├── theroot.com1.txt │ ├── tnr.com1.txt │ ├── tnr.com2.txt │ ├── uproxx.com1.txt │ ├── uproxx.com2.txt │ ├── upworthy.com1.txt │ ├── upworthy.com2.txt │ ├── usnews.com1.txt │ ├── usnews.com2.txt │ ├── vanityfair.com1.txt │ ├── vogue.de1.txt │ ├── vogue.de2.txt │ ├── wetpaint.com1.txt │ ├── wetpaint.com2.txt │ ├── wired.com1.txt │ ├── wired.com2.txt │ ├── wnet.org1.txt │ ├── wnet.org2.txt │ ├── youbeauty.com1.txt │ └── youbeauty.com2.txt └── unit_tests.py