菜单
菜单
文章目录
  1. 1.数据新闻
  2. 2.数据挖掘(Data Mining)

计算新闻学复习

仅供参考,同学们可以参考王嘉宁的博客整理的内容。

以下仅为补充。

1.数据新闻

主考概念

  • 新闻

    新闻对新近发生的事实的叙述

    • 新闻作品得做到两点:

      • 能给读者提供信息
      • 能使读者对之感兴趣
    • 新闻价值

      • 新闻价值就是对新近发生的事实或者观点事实的一种价值判断
      • 事实是客观的,但是判断是主观的。不同的人、在不同的环境下对同一事实的价值判断是有所不同的。特别是一些小事情上会与分歧。重大事件,往往分歧不大,会形成共识,比如战争的爆发,比如911 大家都会认为是新闻。
      • 实用意义。受众接受新闻往往是出于自己的实用价值的判断。炒股的关心股票新闻,八卦的自然关心娱乐。在中国,受众的使用价值,媒体自身的经济利益,政治利益还有传播者的个人喜好,都会影响价值判断。
      • 对传播者,新闻价值是满足接受者享用新闻信息效用的,选择事实予以报道的衡量标准。
    • 记者判断新闻价值的参考因素

      • 及时性

      • 冲击性或重要性(所有的报道中,至少3/4属于具有冲击力、重要性和一场异常性特质的范畴之列。)

      • 所涉及名人的显赫性

      • 与读者和听众的接近性

      • 冲突性

      • 异常性(如狗咬人不是新闻,人咬狗是新闻)

      • 当下性(人们对正在发生的情势的突然兴起和利害关系)。

      • 必要性(新闻记者决定必须披露的局势)

      • 注意点:

        1,事情发生的概率越小,越有新闻价值。

        2 ,事实或状态的不确定性越大,减少不确定性的事实或信息,便越有新闻价值。如:马航失联事件

        3,事实的发生与受众利益越相关,越具有新闻价值。

        4,事实的影响力越大、影响面越广,越能立即产生影响力,三个条件同时存在,越有新闻价值。

        5,事实与受众的心理距离越接近(兴趣、生活区域、习惯、年龄、教育程度、专业、收入、民族宗教信仰等)
        6,越是著名人物、著名地点发生的事情
        7,有冲突的事实价值越大,冲突越大价值越大。(比如论战、看黄碟事件、商业竞争、外交、战争)
        8, 越能表现人的情感事实,悲欢离合。
        9, 心理替代性的故事性事实,成功者(如阿里巴巴美国上市)、英雄、大团圆 、撒旦(出轨做坏事)
        10, 事实在比较中的反差越大。(如 农村教育)

  • 数据新闻(data journalism)

    又称数据驱动新闻(data driven journalism),就是“基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式”。

    • 数据新闻是发现、辅证、和讲述新闻故事
    • 数据新闻至少在三个方面有所突破。
      • 首先,数据新闻所分析的数据量级已远非传统新闻操作中数据图表可相提并论,其数据多以上万甚至百万、千万计。这当然是拜信息技术发展所赐,为数据分析与数据挖掘技术的大力发展提供了可能。
      • 其次,在作品展示方面,由于可视化技术的发展,以及网络媒体的出现,使得互动式可视化效果在新闻作品中的呈现成为可能。虽然数据新闻作品也有在传统媒体中展示的,但总体来说,主要仍出现在各类数字媒体平台之上。
      • 最后,更重要的是,以往更多的是文字为主、数据为辅(data for the journalism)或是数据与文字相辅相成(data with the journalism),而数据新闻则是数据为先、文字在后,数据驱动的新闻,在一定程度上改变了新闻生产的思路与流程
    • 数据新闻的生产过程
      • 数据经过过滤与视觉化后形成故事。对公众而言,数据在这一过程中价值提升。
      • 传统新闻学“倒金字塔”结构理论。学者布拉德肖提出:数据新闻双金字塔结构。
    • 数据团队使用工具和资源处理数据有三个步骤:获得数据、讲故事、分享数据
    • 组成数据驱动新闻报道的几个重要元素有:
      • 1)故事主题,
      • 2)记者的好奇心,
      • 3)相关数据,
      • 4)坚实的报道内容,
      • 5)以数据驱动报道的构思

2.数据挖掘(Data Mining)

  • 概念:

    (1)在巨大的数据集中高效的发现相对未知的、有效的、具有潜在价值的、易于理解的形式

    (2)在大量数据分析的过程中、在不同方向上总结数据找出 更加确定(同时具备易于理解和有价值)的关系

  • KDD Process数据知识库发现过程:

    • 数据挖掘
    • 数据整理
    • 数据转换

    Data-(selection)-target Data-(Preprocessing)-Preprocessed Data-(Transformation)-Transformed Data-(Data Mining)-Patterns-(interpret/evaluation)-Knowledge

  • Data Mining target

    • 明确问题
    • 使用数据挖掘技术把数据转换成信息
    • 使信息有用
    • 衡量结果
  • 数据挖掘的具体过程

    • Understand the domain理解领域
    • Create a dataset:创建数据集
      • Select the interesting attributes选择有意义的属性
      • Data cleaning and preprocessing数据清洗和再处理
    • Choose the data mining task and the specific algorithm选择数据挖掘任务和具体算法
    • Interpret the results, and possibly return to 2解释结果,并且可能重返操作2
  • 分类与聚类

    • 分类是有指导的学习,即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行,有具体的类用来对数据划分
    • 聚类是无指导的学习,训练样本的类标签是不可知的,从样本中自己分类或聚类
  • 使用Vector分类:

    • 要求一:相同类的文档应该在相邻区域
    • 要求二:不同文档的不同类不宜过多。
    • 过程:模型创建(就是把数据通过分类算法进行筛选或者处理)、模型预测(第一步确定关系后,通过新数据验证得出结果)
    • 分类思想1:人为分类、基于代码或者规则的过滤、监督式学习(朴素贝叶斯、KNN、支持向量的机器)
  • 监督学习

    • feature选取:邮件、url….(原因:我们有大数据集,feature可以降低数量、减少监督学习的时间、使运行的时间减少且更快、提高了扩展性)
      • 选取频率,只使用最常见的terms、没有特殊基础、
    • 只使用word feature、使用全部文本而不是子集
  • KNN算法:如果一个样本在特征空间中的K个最相似的样本大多属于一个类别,则这个样本也属于这个类别。当K个邻居中大容量类的样本占多数,因此可以采用权值

  • 条件概率(学过不再赘述)

  • 贝叶斯公式(学过不再赘述)