import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

sns.set_theme(style='darkgrid', font_scale = 1.5,
              rc={'figure.figsize':(7,5)})

rng = np.random.default_rng()


bearkeley = pd.read_csv("bearkeley.csv")

# create a 1/0 int that indicates democratic vote
bearkeley['vote.dem'] = (bearkeley['vote'] == 'Dem').astype(int)
bearkeley


actual_vote = np.mean(bearkeley["vote.dem"])
actual_vote

0.5302792307692308


convenience_sample = bearkeley[bearkeley['age'] >= 65]
np.mean(convenience_sample["vote.dem"])

0.3744755089093924


len(convenience_sample)

359396


len(convenience_sample)/len(bearkeley)

0.27645846153846154


votes_by_demo = bearkeley.groupby(["age","high_income"]).agg("mean").reset_index()
votes_by_demo


import matplotlib.ticker as ticker
fig = plt.figure();
red_blue = ["#bf1518", "#397eb7"]
with sns.color_palette(sns.color_palette(red_blue)):
    ax = sns.pointplot(data=votes_by_demo, x = "age", y = "vote.dem", hue = "high_income")

ax.set_title("Voting preferences by demographics")
fig.canvas.draw()
new_ticks = [i.get_text() for i in ax.get_xticklabels()];
plt.xticks(range(0, len(new_ticks), 10), new_ticks[::10]);


## By default, replace = False
n = len(convenience_sample)
random_sample = bearkeley.sample(n, replace = False)

np.mean(random_sample["vote.dem"])

0.5302785785039343


actual_vote

0.5302792307692308


n = 800
random_sample = bearkeley.sample(n, replace = False)
np.mean(random_sample["vote.dem"])

0.51375


poll_result = []
nrep = 1000   # number of simulations
n = 800       # size of our sample
for i in range(0,nrep):
    random_sample = bearkeley.sample(n, replace = False)
    poll_result.append(np.mean(random_sample["vote.dem"]))


sns.histplot(poll_result, stat='density')

<AxesSubplot:ylabel='Density'>


poll_result = pd.Series(poll_result)
np.sum(poll_result > 0.5)/1000

0.959


sns.histplot(poll_result, stat='density', kde=True)

<AxesSubplot:ylabel='Density'>


np.random.multinomial(100, [0.60, 0.30, 0.10])

array([62, 29,  9])


np.random.multinomial(100, [0.60, 0.30, 0.10], size=20)

array([[60, 30, 10],
       [58, 30, 12],
       [60, 34,  6],
       [62, 32,  6],
       [65, 26,  9],
       [61, 28, 11],
       [58, 35,  7],
       [64, 26, 10],
       [59, 26, 15],
       [52, 34, 14],
       [52, 36, 12],
       [65, 29,  6],
       [67, 21, 12],
       [58, 36,  6],
       [57, 35,  8],
       [67, 30,  3],
       [63, 32,  5],
       [65, 29,  6],
       [66, 25,  9],
       [70, 24,  6]])

	age	high_income	vote.dem
0	18	False	0.819594
1	18	True	0.667001
2	19	False	0.812214
3	19	True	0.661252
4	20	False	0.805281
...	...	...	...
125	80	True	0.259731
126	81	False	0.394946
127	81	True	0.256759
128	82	False	0.398970
129	82	True	0.248060

Lecture 09 Supplemental Notebook¶

A fake election data set¶

Recreate the retiree sample¶

Check for bias¶

Compare to a Simple Random Sample¶

How to quantify chance error?¶

Simulating from a Multinomial Distribution¶

Marbles¶