|本期目录/Table of Contents|

[1]张 浩,侯丽艳,马 萍,等.“80 后”职业人群二孩生育行为预测及影响因素分析———基于随机森林算法[J].宁夏医科大学学报,2021,(02):149-155.[doi:10.16050/j.cnki.issn1674-6309.2021.02.010]
 ZHANG Hao,HOU Liyan,MA Ping,et al.Prediction and Analysis of Influencing Factors of the Second-child Fertility Behavior of the Post-80s Occupational Population[J].Ningxia Medical University,2021,(02):149-155.[doi:10.16050/j.cnki.issn1674-6309.2021.02.010]
点击复制

“80 后”职业人群二孩生育行为预测及影响因素分析———基于随机森林算法(PDF)
分享到:

《宁夏医科大学学报》[ISSN:1005-8486/CN:64-1029/R]

卷:
期数:
2021年02期
页码:
149-155
栏目:
预防医学
出版日期:
2021-02-28

文章信息/Info

Title:
Prediction and Analysis of Influencing Factors of the Second-child Fertility Behavior of the Post-80s Occupational Population
文章编号:
1674-6309(2021)02-0149-07
作者:
张 浩1 侯丽艳2 马 萍1 邱红燕1
(1. 宁夏医科大学公共卫生与管理学院,银川 750004; 2. 大连医科大学公共卫生学院,大连 116044)
Author(s):
ZHANG Hao1 HOU Liyan2 MA Ping1 QIU Hongyan1
(1. School of Public Health and Management,Ningxia Medical University, Yinchuan 750004, China;2. School of Public Health,Dalian Medical University,Dalian 116044,China)
关键词:
“80后”二孩随机森林算法生育行为
Keywords:
post-80ssecond-childrandom forest algorithmfertility behavior
分类号:
R169
DOI:
10.16050/j.cnki.issn1674-6309.2021.02.010
文献标志码:
A
摘要:
目的 探讨基于随机森林算法建立“80后”职业人群二孩生育行为的预测模型,并在此基础上采用多因素Logistic回归分析影响二孩生育行为的主要因素。方法 采用现况研究设计,利用整群抽样方法分别对银川市、大连市和北京市10家企事业单位所有已婚育人群进行问卷调查,最终纳入1857例作为研究对象。将数据集按3∶1分为训练集和测试集,在训练集应用随机森林算法建立二孩生育行为预测模型,用测试集进行模型验证,通过混淆矩阵和受试者工作特征曲线(ROC)评价模型的预测效能。结果 本次研究的1857例受试者中,已生育二孩者250例(13.5%)。采用随机森林算法在训练集建立二孩生育行为预测模型对测试集进行预测,ROC曲线下面积(AUC)为0.913,模型具有较高的精度;根据变量重要性排序及十折交叉验证结果确定6个最佳变量进行多因素Logistic回归分析。结果显示,社会支持得分越高,生育二孩的可能性越大,OR值为1.03(95%CI=1.01~1.05),大专学历者、本科学历者、研究生及以上学历者生育二孩的可能性分别是高中及以下学历者的0.56倍(95%CI=0.37~0.85)、0.45倍(95%CI=0.33~0.62)、0.25倍(95%CI=0.12~0.52),意愿子女数为两个以上者生育二孩的可能性是不要孩子的7.89倍(95%CI=2.29~27.15)。结论 随机森林算法对“80后”职业人群二孩生育行为具有较高的预测效能,结合多因素Logistic回归分析能直观解释二孩生育行为的影响因素,社会支持、文化程度和意愿子女数是二孩生育行为的主要影响因素。
Abstract:
Objective To explore the establishment of a prediction model for the second-child fertility behavior of the post-80s occupational population based on the random forest algorithm,and then analyze the main factors affecting the second-child fertility behavior by multivariate Logistic regression. Methods Using cross-sectional study design,we conducted a questionnaire survey among 1857 married employees respectively recruited with cluster random sampling in 10 enterprises and institutions in Yinchuan,Dalian and Beijing.Dataset was divided into a training set and a test set by a ratio of 3∶1. Random forest algorithm was used to establish second-child fertility behavior prediction models in the training set and model validation was done with the test set. The prediction efficiency of the model was evaluated by confusion matrix and ROC curve. Results Among 1857 respondents in this study,13.5% has borne two children.Random forest algorithm was applied to predict the test set of the diabetes risk prediction model established in the training set. The area under ROC curve(AUC)was 0.913,and the model has high accuracy. Six optimal variables were determined for multivariate Logistic regression analysis according to the order of importance of variables and the results of ten folds cross validation. The results showed that the probability of having two children increases with the increase of social support score,with an OR value of 1.03(95%CI=1.01-1.05). The probability of having a second child is 0.56 times(95%CI=0.37-0.85),0.45 times(95%CI=0.33-0.62)and 0.25 times(95%CI=0.12-0.52)of high junior college students,undergraduate students and postgraduate education students higher than those with high school degree or below respectively.Respondents who wanted more than two children are 7.89 times(95%CI=2.29-27.15)more likely than those who did not. Conclusion The random forest algorithm has a high predictive effect on the second-child fertility behavior of the“post-80 s” occupational population.Combined with multi-factor Logistic regression analysis,the influencing factors of the second-child fertility behavior can be intuitively explained.Social support,education level and number of willing children are the main influencing factors of the second-child fertility behavior.

参考文献/References:

[1] 中华人民共和国国家统计局. 中国统计年鉴[M]. 北京:中国统计出版社,2020.
[2] 邓浏睿,周子旋. 基于“全面二孩”政策下的房价波动、收入水平对生育行为的影响研究[J]. 湖南大学学报(社会科学版),2019,33(6):71-77.
[3] 马志越,王金营. 生与不生的抉择:从生育意愿到生育行为——来自2017年全国生育状况抽样调查北方七省市数据的证明[J]. 兰州学刊,2020,41(1):144-156.
[4] 王磊. “全面两孩”政策下育龄女性的生育行为与家庭幸福感——从生育服务和托幼资源视角的观察[J]. 西南民族大学学报(人文社会科学版),2017,38(6):7-12.
[5] 张占林,姚华,孙勇,等. 随机森林算法对体检人群糖尿病患病风险的预测价值研究[J]. 中国全科医学,2019,22(9):1021-1026.
[6] Li NP,Lim AJ,Tsai MH,et al. Too materialistic to get married and have children?[J]. PLoS One,2015,10(5):e0126543.
[7] 阮燕梅,张晋蔚,黄冠豪,等. 工作内容量表(JCQ22)在噪声作业工人中的应用[J]. 职业卫生与应急救援,2019,37(06):542-546.
[8] 许弘佳,姚三巧,刘弘扬,等. 空中交通管制员职业紧张及其影响因素分析[J]. 中国职业医学,2015,42(4):396-402.
[9] 李青,王艳娜,王天宇,等. 二胎产妇产后抑郁及其社会支持情况分析[J]. 世界最新医学信息文摘,2019,19(48):40-41.
[10] 熊承清,许远理. 生活满意度量表中文版在民众中使用的信度和效度[J]. 中国健康心理学杂志,2009,17(8):948-949.
[11] Campbell A. Subjective measures of well-being[J]. Am Psychol,1976,31(2):117-124.
[12] 田甜,李婷婷,聂志超,等. 基于随机森林算法的高尿酸血症危险因素分析[J]. 中国卫生统计,2020,37(2):162-165,169.
[13] 梁子超,李智炜,赖铿,等. 10折交叉验证用于预测模型泛化能力评价及其R软件实现[J]. 中国医院统计,2020,27(4):289-292.
[14] 李冬领. 基于数据挖掘的二孩生育意愿影响因素研究[D]. 南京:南京邮电大学,2018.
[15] 张志浩,刘满兰,戴必兵,等. 妊娠经历视角下育龄青年女性心理弹性与二孩生育意愿的关系:社会支持的调节作用[J]. 心理技术与应用,2019,7(2):71-78.
[16] 郭思名. 社会支持在二胎妈妈的生育选择中的影响作用研究[D]. 哈尔滨:黑龙江省社会科学院,2019.
[17] 郑卫星,吴欣,刘勇. 高学历群体二孩生育意愿及影响因素调查研究——以潍坊某高校为例[J]. 产业与科技论坛,2019,18(24):88-90.
[18] 原新,刘绘如,刘旭阳,等. 2006—2016年少数民族省区生育水平研究——基于2017年全国生育状况抽样调查数据[J]. 人口研究,2019,43(2):61-69.
[19] 王军,王广州. 中国低生育水平下的生育意愿与生育行为差异研究[J]. 人口学刊,2016,38(2):5-17.
[20] 吴帆.低生育率陷阱究竟是否存在?——对后生育率转变国家(地区)生育率长期变化趋势的观察[J]. 人口研究,2019,43(4):50-60.

相似文献/References:

备注/Memo

备注/Memo:
收稿日期:2020-07-21
基金项目:国家社会科学基金 (16BRK001)
作者简介:张浩(1994—),男,硕士,研究方向:人口健康与流行病学。
通信作者:邱红燕(1980—),博士,副教授,研究方向:人口健康与生殖流行病学。E-mail:yanzide80@163.com
更新日期/Last Update: 1900-01-01