gitextract_rwt56aci/ ├── .envrc ├── .gitattributes ├── .github/ │ └── workflows/ │ ├── check_build.yml │ └── deploy.yml ├── .gitignore ├── LICENSE.md ├── Makefile ├── README.md ├── SETUP.md ├── content/ │ ├── _config.yml │ ├── _static/ │ │ ├── custom.css │ │ └── custom.js │ ├── _toc.yml │ ├── additional_resources.md │ ├── ch/ │ │ ├── 01/ │ │ │ ├── lifecycle_cycle.ipynb │ │ │ ├── lifecycle_intro.ipynb │ │ │ ├── lifecycle_map.ipynb │ │ │ └── lifecycle_summary.ipynb │ │ ├── 02/ │ │ │ ├── data_scope_accuracy.ipynb │ │ │ ├── data_scope_big_data_hubris.ipynb │ │ │ ├── data_scope_construct.ipynb │ │ │ ├── data_scope_exercises.ipynb │ │ │ ├── data_scope_intro.ipynb │ │ │ ├── data_scope_natural.ipynb │ │ │ ├── data_scope_protocols.ipynb │ │ │ ├── data_scope_summary.ipynb │ │ │ ├── figures/ │ │ │ │ └── ConstructDesignsRe tangles.pptx │ │ │ └── thirtyminutePM25.csv │ │ ├── 03/ │ │ │ ├── data/ │ │ │ │ ├── pm30.csv │ │ │ │ └── purpleAir30minsample.csv │ │ │ ├── theory_election.ipynb │ │ │ ├── theory_exercises.ipynb │ │ │ ├── theory_intro.ipynb │ │ │ ├── theory_measurement_error.ipynb │ │ │ ├── theory_prob_dist.ipynb │ │ │ ├── theory_probability.ipynb │ │ │ ├── theory_random_assignment.ipynb │ │ │ ├── theory_sampling_variation.ipynb │ │ │ ├── theory_summary.ipynb │ │ │ ├── theory_urn.ipynb │ │ │ └── theory_vaccine_efficacy.ipynb │ │ ├── 04/ │ │ │ ├── modeling_exercises.ipynb │ │ │ ├── modeling_intro.ipynb │ │ │ ├── modeling_loss_functions.ipynb │ │ │ ├── modeling_simple.ipynb │ │ │ └── modeling_summary.ipynb │ │ ├── 05/ │ │ │ ├── BusDiagram.pptx │ │ │ ├── bus_clean.ipynb │ │ │ ├── bus_eda.ipynb │ │ │ ├── bus_exercises.ipynb │ │ │ ├── bus_intro.ipynb │ │ │ ├── bus_modeling.ipynb │ │ │ ├── bus_scope.ipynb │ │ │ ├── bus_summary.ipynb │ │ │ └── cycle_case_study_intro.ipynb │ │ ├── 06/ │ │ │ ├── pandas_aggregating.ipynb │ │ │ ├── pandas_exercises.ipynb │ │ │ ├── pandas_intro.ipynb │ │ │ ├── pandas_joining.ipynb │ │ │ ├── pandas_other_reps.ipynb │ │ │ ├── pandas_subsetting.ipynb │ │ │ ├── pandas_summary.ipynb │ │ │ └── pandas_transforming.ipynb │ │ ├── 07/ │ │ │ ├── sql_aggregating.ipynb │ │ │ ├── sql_exercises.ipynb │ │ │ ├── sql_intro.ipynb │ │ │ ├── sql_joining.ipynb │ │ │ ├── sql_subsetting.ipynb │ │ │ ├── sql_summary.ipynb │ │ │ └── sql_transforming.ipynb │ │ ├── 08/ │ │ │ ├── files_command_line.ipynb │ │ │ ├── files_datasets.ipynb │ │ │ ├── files_encoding.ipynb │ │ │ ├── files_formats.ipynb │ │ │ ├── files_granularity.ipynb │ │ │ ├── files_intro.ipynb │ │ │ ├── files_size.ipynb │ │ │ └── files_summary.ipynb │ │ ├── 09/ │ │ │ ├── wrangling_checks.ipynb │ │ │ ├── wrangling_co2.ipynb │ │ │ ├── wrangling_intro.ipynb │ │ │ ├── wrangling_missing.ipynb │ │ │ ├── wrangling_restaurants.ipynb │ │ │ ├── wrangling_structure.ipynb │ │ │ ├── wrangling_summary.ipynb │ │ │ └── wrangling_transformations.ipynb │ │ ├── 10/ │ │ │ ├── eda_distributions.ipynb │ │ │ ├── eda_example.ipynb │ │ │ ├── eda_feature_types.ipynb │ │ │ ├── eda_guidelines.ipynb │ │ │ ├── eda_intro.ipynb │ │ │ ├── eda_multi.ipynb │ │ │ ├── eda_relationships.ipynb │ │ │ └── eda_summary.ipynb │ │ ├── 11/ │ │ │ ├── data/ │ │ │ │ ├── Berkeley_PD_-_Calls_for_Service.csv │ │ │ │ ├── babies.data │ │ │ │ ├── babies.readme │ │ │ │ ├── babies23.data │ │ │ │ ├── calls.csv │ │ │ │ ├── cvdow.csv │ │ │ │ ├── planets.data │ │ │ │ ├── plannedparenthood.csv │ │ │ │ ├── stops.csv │ │ │ │ ├── stops.json │ │ │ │ └── voteCA2016.csv │ │ │ ├── figures/ │ │ │ │ └── threePalettes.pptx │ │ │ ├── viz_comparisons.ipynb │ │ │ ├── viz_context.ipynb │ │ │ ├── viz_data_design.ipynb │ │ │ ├── viz_intro.ipynb │ │ │ ├── viz_other_tools.ipynb │ │ │ ├── viz_plotly.ipynb │ │ │ ├── viz_scale.ipynb │ │ │ ├── viz_smoothing.ipynb │ │ │ └── viz_summary.ipynb │ │ ├── 12/ │ │ │ ├── pa_cleaning_aqs.ipynb │ │ │ ├── pa_cleaning_purpleair.ipynb │ │ │ ├── pa_collocated.ipynb │ │ │ ├── pa_conclusion.ipynb │ │ │ ├── pa_eda.ipynb │ │ │ ├── pa_exercises.ipynb │ │ │ ├── pa_intro.ipynb │ │ │ ├── pa_modeling.ipynb │ │ │ └── pa_scope.ipynb │ │ ├── 13/ │ │ │ ├── text_examples.ipynb │ │ │ ├── text_exercises.ipynb │ │ │ ├── text_intro.ipynb │ │ │ ├── text_regex.ipynb │ │ │ ├── text_sotu.ipynb │ │ │ ├── text_strings.ipynb │ │ │ └── text_summary.ipynb │ │ ├── 14/ │ │ │ ├── data/ │ │ │ │ ├── catalog.xml │ │ │ │ └── js_ex/ │ │ │ │ ├── epa_aqi_samp.json │ │ │ │ ├── epa_col.json │ │ │ │ ├── epa_row.json │ │ │ │ ├── epa_val.json │ │ │ │ └── ex.json │ │ │ ├── figures/ │ │ │ │ ├── JSON-diagram.pptx │ │ │ │ ├── XPath.pptx │ │ │ │ └── netCDF.pptx │ │ │ ├── web_html.ipynb │ │ │ ├── web_http.ipynb │ │ │ ├── web_intro.ipynb │ │ │ ├── web_json.ipynb │ │ │ ├── web_netCDF.ipynb │ │ │ ├── web_rest.ipynb │ │ │ └── web_summary.ipynb │ │ ├── 15/ │ │ │ ├── linear_case.ipynb │ │ │ ├── linear_categorical.ipynb │ │ │ ├── linear_exercises.ipynb │ │ │ ├── linear_feature_eng.ipynb │ │ │ ├── linear_fitting.ipynb │ │ │ ├── linear_intro.ipynb │ │ │ ├── linear_multi.ipynb │ │ │ ├── linear_multi_fit.ipynb │ │ │ ├── linear_pa.ipynb │ │ │ ├── linear_simple.ipynb │ │ │ ├── linear_simple_fit.ipynb │ │ │ ├── linear_summary.ipynb │ │ │ ├── linear_tips.ipynb │ │ │ └── mobility.csv │ │ ├── 16/ │ │ │ ├── figures/ │ │ │ │ └── ModelBias-Variance.pptx │ │ │ ├── ms_cv.ipynb │ │ │ ├── ms_intro.ipynb │ │ │ ├── ms_overfitting.ipynb │ │ │ ├── ms_regularization.ipynb │ │ │ ├── ms_risk.ipynb │ │ │ ├── ms_summary.ipynb │ │ │ └── ms_train_test.ipynb │ │ ├── 17/ │ │ │ ├── ImagesForTriptych.R │ │ │ ├── Triptych.pptx │ │ │ ├── data/ │ │ │ │ └── bootstrapped_theta.csv │ │ │ ├── inf_pred_gen_CI.ipynb │ │ │ ├── inf_pred_gen_Exercises.ipynb │ │ │ ├── inf_pred_gen_HT.ipynb │ │ │ ├── inf_pred_gen_PI.ipynb │ │ │ ├── inf_pred_gen_boot.ipynb │ │ │ ├── inf_pred_gen_dist.ipynb │ │ │ ├── inf_pred_gen_intro.ipynb │ │ │ ├── inf_pred_gen_prob.ipynb │ │ │ └── inf_pred_gen_summary.ipynb │ │ ├── 18/ │ │ │ ├── donkey_clean.ipynb │ │ │ ├── donkey_eda.ipynb │ │ │ ├── donkey_exercises.ipynb │ │ │ ├── donkey_intro.ipynb │ │ │ ├── donkey_model.ipynb │ │ │ ├── donkey_scope.ipynb │ │ │ └── donkey_summary.ipynb │ │ ├── 19/ │ │ │ ├── class_dr.ipynb │ │ │ ├── class_example.ipynb │ │ │ ├── class_intro.ipynb │ │ │ ├── class_log_model.ipynb │ │ │ ├── class_loss.ipynb │ │ │ ├── class_pred.ipynb │ │ │ └── class_summary.ipynb │ │ ├── 20/ │ │ │ ├── gd_alternative.ipynb │ │ │ ├── gd_basics.ipynb │ │ │ ├── gd_convex.ipynb │ │ │ ├── gd_example.ipynb │ │ │ ├── gd_intro.ipynb │ │ │ └── gd_summary.ipynb │ │ ├── 21/ │ │ │ ├── fake_news_data.ipynb │ │ │ ├── fake_news_exploring.ipynb │ │ │ ├── fake_news_intro.ipynb │ │ │ ├── fake_news_modeling.ipynb │ │ │ ├── fake_news_question.ipynb │ │ │ └── fake_news_summary.ipynb │ │ ├── a01/ │ │ │ └── prob_review.ipynb │ │ ├── a02/ │ │ │ └── vector_space_review.ipynb │ │ ├── a03/ │ │ │ ├── StudentRatingsData.csv │ │ │ ├── baby.csv │ │ │ ├── duncan.csv │ │ │ ├── hyp_intro.ipynb │ │ │ ├── hyp_introduction.ipynb │ │ │ ├── hyp_introduction_part2.ipynb │ │ │ ├── ilec.csv │ │ │ └── raw_anonymized_data.csv │ │ ├── a04/ │ │ │ ├── ref_intro.ipynb │ │ │ ├── ref_matplotlib.ipynb │ │ │ ├── ref_pandas.ipynb │ │ │ ├── ref_seaborn.ipynb │ │ │ └── ref_sklearn.ipynb │ │ └── old_pages/ │ │ ├── a05/ │ │ │ ├── bias_cv.ipynb │ │ │ ├── bias_intro.ipynb │ │ │ ├── bias_modeling.ipynb │ │ │ ├── bias_risk.ipynb │ │ │ └── icecream.csv │ │ ├── a06/ │ │ │ ├── reg_intro.ipynb │ │ │ ├── reg_intuition.ipynb │ │ │ ├── reg_lasso.ipynb │ │ │ ├── reg_ridge.ipynb │ │ │ ├── water.csv │ │ │ └── water_large.csv │ │ ├── a07/ │ │ │ ├── repl_intro.ipynb │ │ │ └── repl_phacking.ipynb │ │ ├── classification_regularization.ipynb │ │ ├── cleaning/ │ │ │ ├── cleaning_calls.ipynb │ │ │ ├── cleaning_faithfulness.ipynb │ │ │ ├── cleaning_granularity.ipynb │ │ │ ├── cleaning_scope.ipynb │ │ │ ├── cleaning_stops.ipynb │ │ │ ├── cleaning_structure.ipynb │ │ │ └── cleaning_temp.ipynb │ │ ├── data_design/ │ │ │ ├── design_data.ipynb │ │ │ ├── design_dewey_truman.ipynb │ │ │ ├── design_intro.ipynb │ │ │ ├── design_sampling.ipynb │ │ │ ├── design_srs_vs_big_data.ipynb │ │ │ └── srs_big_simulations.csv │ │ ├── inference/ │ │ │ ├── StudentRatingsData.csv │ │ │ ├── baby.csv │ │ │ ├── hyp_intro.ipynb │ │ │ ├── hyp_introduction.ipynb │ │ │ ├── hyp_introduction_part2.ipynb │ │ │ ├── hyp_studentized.ipynb │ │ │ ├── ilec.csv │ │ │ └── raw_anonymized_data.csv │ │ ├── mult_inference.ipynb │ │ ├── pca/ │ │ │ ├── child_data.csv │ │ │ ├── child_mortality_0_5_year_olds_dying_per_1000_born.csv │ │ │ ├── children_per_woman_total_fertility.csv │ │ │ ├── ds100_utils.py │ │ │ ├── fat.dat.txt │ │ │ ├── hongkong_height_weight.csv │ │ │ ├── legislators-current.yaml │ │ │ ├── legislators.csv │ │ │ ├── pca_dims.ipynb │ │ │ ├── pca_in_practice.ipynb │ │ │ ├── pca_intro.ipynb │ │ │ ├── pca_svd.ipynb │ │ │ ├── rectangle_data.csv │ │ │ ├── vote_pivot.csv │ │ │ └── votes.csv │ │ ├── police/ │ │ │ ├── police_calls.ipynb │ │ │ └── police_stops.ipynb │ │ ├── sql/ │ │ │ ├── sql_basics.ipynb │ │ │ ├── sql_joins.ipynb │ │ │ └── sql_rdbms.ipynb │ │ └── viz/ │ │ ├── viz_matplotlib.ipynb │ │ ├── viz_philosophy.ipynb │ │ ├── viz_principles.ipynb │ │ ├── viz_principles_2.ipynb │ │ ├── viz_qualitative.ipynb │ │ └── viz_quantitative.ipynb │ ├── data_sources.md │ ├── datasets/ │ │ ├── 100m_sprint.csv │ │ ├── BLS_Ed_Inc.csv │ │ ├── CAIT_Top14_CO2_Ctries.csv │ │ ├── DAWN-Data.txt │ │ ├── SF_Restaurant_Inspections/ │ │ │ ├── businesses.csv │ │ │ ├── inspections.csv │ │ │ ├── legend.csv │ │ │ └── violations.csv │ │ ├── Wikipedia.csv │ │ ├── WikipediaExp.csv │ │ ├── akc.csv │ │ ├── all_dogs.csv │ │ ├── babynames.csv │ │ ├── black_spruce.csv │ │ ├── census_regions.csv │ │ ├── cherryBlossomMen.csv │ │ ├── co2_by_country.csv │ │ ├── co2_mm_mlo.txt │ │ ├── crabs.data │ │ ├── dogs.csv │ │ ├── dogs43.csv │ │ ├── donkeys.csv │ │ ├── duncan.csv │ │ ├── earnings2014.csv │ │ ├── earnings2020.csv │ │ ├── fake_news/ │ │ │ ├── 01_make_csv.ipynb │ │ │ ├── 02_modeling.ipynb │ │ │ ├── 03_eda.ipynb │ │ │ ├── fake_news.csv │ │ │ └── fake_news_training.csv │ │ ├── gft.csv │ │ ├── market-analysis.csv │ │ ├── nba-2022.csv │ │ ├── nyt_names.csv │ │ ├── opportunity/ │ │ │ ├── README.md │ │ │ ├── mobility.csv │ │ │ ├── online_data_tables.xls │ │ │ ├── onlinedata1.dta │ │ │ ├── onlinedata2.dta │ │ │ ├── onlinedata3.dta │ │ │ ├── onlinedata4.dta │ │ │ ├── onlinedata5.dta │ │ │ ├── onlinedata6.dta │ │ │ ├── onlinedata7.dta │ │ │ └── onlinedata8.dta │ │ ├── purpleAir2minSample.csv │ │ ├── purpleAirMeasurementError.csv │ │ ├── purpleair_study/ │ │ │ ├── aqs_06-067-0010.csv │ │ │ ├── cleaned_purpleair_aqs/ │ │ │ │ ├── Fig1.csv │ │ │ │ ├── Fig4.csv │ │ │ │ ├── FigS1_IA.csv │ │ │ │ ├── Full24hrdataset.csv │ │ │ │ ├── README.txt │ │ │ │ ├── datadictionary_UScorrection_210408_rev3.docx │ │ │ │ └── withheldfinaldataset_Fig7.csv │ │ │ ├── list_of_aqs_sites.csv │ │ │ ├── list_of_purpleair_sensors.json │ │ │ ├── matched_pa_aqs.csv │ │ │ └── purpleair_AMTS/ │ │ │ ├── AMTS_TESTING (outside) (38.568404 -121.493163) Primary Real Time 05_20_2018 12_29_2019.csv │ │ │ ├── AMTS_TESTING (outside) (38.568404 -121.493163) Secondary Real Time 05_20_2018 12_29_2019.csv │ │ │ ├── AMTS_TESTING B (undefined) (38.568404 -121.493163) Primary Real Time 05_20_2018 12_29_2019.csv │ │ │ └── AMTS_TESTING B (undefined) (38.568404 -121.493163) Secondary Real Time 05_20_2018 12_29_2019.csv │ │ ├── seattle_bus_times.csv │ │ ├── seattle_bus_times_NC.csv │ │ ├── sfhousing.csv │ │ ├── snowy_plover.csv │ │ ├── stateoftheunion1790-2022.txt │ │ └── utilities.csv │ ├── intro.md │ ├── notation.md │ ├── preface.md │ └── prereqs.md ├── environment.yml ├── mypy.ini ├── pyproject.toml ├── requirements.txt ├── scripts/ │ ├── create_babynames_csv.py │ ├── download_aqs_data.py │ ├── migrate_hidden_tags.py │ ├── migrate_starter_code.py │ └── renumber_chapters.py ├── starter.ipynb └── textbook_utils.py