
Future Timeline
Future Timeline 是一个致力于系统化梳理人类未来可能性的在线编年史项目。它以十年为单位,详细记录从 2020年代 起,直至 2090年代 乃至更遥远未来的科学、技术、社会与文明演进预测。
“中国女性择偶数据实验室” 是基于 GitHub 上的开源项目《中国男性人口合成数据生成》构建,允许用户输入自身条件,查看在模拟数据中“处于什么位置”。
“中国女性择偶数据实验室” 是基于 GitHub 上的开源项目《中国男性人口合成数据生成》构建,允许用户输入自身条件,查看在模拟数据中“处于什么位置”。
需要强调的是:这并非真实调查数据,而是基于公开统计规律生成的合成数据集。项目初衷是为教学、研究和算法测试提供高质量、高维度的模拟人口样本,娱乐参考即可,切勿对号入座。

该数据集通过条件概率建模 + 随机采样,在保证统计合理性的前提下,生成100万条包含15个维度的男性个体记录。所有变量并非独立生成,而是通过真实人口逻辑建立依赖关系。
例如:
这种建模方式显著提升了数据的“真实感”,远优于简单随机生成。
| 维度 | 取值类别 | 生成逻辑 |
|---|---|---|
| 年龄 | 0–99岁(按1岁粒度) | 基于2022年全国人口抽样调查的年龄段分布,组内均匀采样 |
| 身高 | cm(连续值) | 按年龄分组,使用正态分布(均值/标准差参考真实统计) |
| 家乡 | 农村 / 县城 / 三线 / 二线 / 一线 | 独立变量,按预设比例随机采样 |
| 教育水平 | 高中及以下 / 大专 / 本科 / 研究生+ | 条件概率:P(教育 | 年龄, 家乡) |
| 年收入 | <5万 / 5–15万 / 15–30万 / 30–50万 / 50–100万 / >100万 | 条件概率:P(收入 | 年龄, 教育) |
| 现居住地 | 同“家乡”五类 | 条件概率:P(现居 | 家乡, 教育) |
| 房产状况 | 无房 / 有房有贷 / 有房无贷 | 条件概率:P(房产 | 年龄, 收入, 现居) |
| 健康状况 | 健康 / 亚健康 / 慢性病 / 重大疾病 | 条件概率:P(健康 | 年龄) |
| 婚姻状况 | 未婚 / 离异无孩 / 离异有孩 / 已婚 | 条件概率:P(婚姻 | 年龄) |
| 视力 | 不近视 / 近视<400度 / 近视≥400度 | 条件概率:P(视力 | 教育)(反映用眼习惯) |
| 个人资产 | <10万 → >1000万(6档) | 条件概率:P(资产 | 年龄, 收入, 教育, 现居) |
| 生活习惯 | 吸烟(3类)、饮酒(3类)、宗教信仰(2类) | 部分随机,部分参考社会调查比例 |
| 个人评分(1–5分) | 颜值、幽默感、身材、性吸引力 | 前三项随机生成,性吸引力由其他评分+身高+年龄综合计算 |

