import pandas as pd
import numpy as np
import plotly.express as px

# First construct probability distribution for a single fair coin
p = 0.5
coin_df = pd.DataFrame({"x": [1, 0], # [Heads, Tails]
                        "P(X = x)": [p, 1 - p]})
coin_df

coin_df.sample(10, weights="P(X = x)", replace=True)["x"]

0    1
0    1
1    0
0    1
0    1
0    1
0    1
0    1
0    1
0    1
Name: x, dtype: int64

N = 10000

np.random.rand(N,2) < p

array([[False, False],
       [ True,  True],
       [ True,  True],
       ...,
       [False,  True],
       [ True,  True],
       [ True,  True]])

sim_flips = pd.DataFrame(
    {"Choice A": np.sum((np.random.rand(N,2) < p) * 10, axis=1)})
sim_flips

sim_flips["Choice B"] = np.sum((np.random.rand(N,20) < p), axis=1)
sim_flips

sim_flips["Choice C"] = 20 * (np.random.rand(N,1) < p) 
sim_flips

px.histogram(sim_flips.melt(), x="value", facet_row="variable", 
             barmode="overlay", histnorm="probability",
             title="Empirical Distributions",
             width=600, height=600)

pd.DataFrame([
    sim_flips.mean().rename("Simulated Mean"),
    sim_flips.var().rename("Simulated Var"),
    np.sqrt(sim_flips.var()).rename("Siumulated SD")
])

	Choice A	Choice B	Choice C
Simulated Mean	10.214000	9.979400	10.092000
Simulated Var	49.879192	4.956271	100.001536
Siumulated SD	7.062520	2.226268	10.000077

Lecture 18 – Data 100, Spring 2024¶

Which would you pick?¶

Choice A:¶

Choice B:¶

Choice C:¶

	Choice A	Choice B
0	20	10
1	20	16
2	20	9
3	10	11
4	20	12
...	...	...
9995	10	10
9996	20	9
9997	20	7
9998	0	11
9999	20	14