回报着对数学之明白兴趣就买下了。由于书被的有数学算法还是生一定难度的。但其事实上是均等仍非常适合于机器上和算法入门的微机广泛书籍。

就本书是当博客园里混转时意识的,报着对数学之阳兴趣就购置下了。由于书中的一对数学算法还是产生一定难度的,且跟自我之实际上工作相关性不顶老,按照Action笔记的想,只记录有针对性自发启迪的Action。

读书笔记:《数学的美》

立马本书是以博客园里混转时发现的,报着对数学之鲜明兴趣就购置下了。由于书被的片段数学算法还是生一定难度的,且跟己之莫过于工作相关性不顶非常,按照Action笔记的想想,只记录有对自己起启发的Action。

 

数码解析?他们既起用了?

 

第1章节 文字及语言 vs 数字与消息

罗塞塔石碑记录了3栽语言,难怪我所以的等同磨蹭非常对的Rosetta软件是模拟语言用的。

瞧《从同到无穷大》这本书。从新浪高达找到了,一准古老的题,抽时间看看。

 

 

第1回 文字及言语 vs 数字和消息

罗塞塔石碑记录了3栽语言,难怪我于是之同等悠悠非常不易的Rosetta软件是模仿语言用的。

探访《从平到无穷大》这本书。从新浪高达找到了,一论古老的书写,抽时间看看。

 

第2章 自然语言处理 — 从规则及统计

图灵测试(Turing
Test)—-让人口以及机器进行交流,如果人口束手无策看清好交流的靶子是口还是机器时,就说明这机器出智能了。

自然语言处理采用句法分析和语义理解还倒不通,全面地转车统计模型方法了。难道自然语言经过了几千年的嬗变,已经更换得一定复杂,许多语法并无是显然的而是模糊的?已经不能够因此电脑来处理?还是句法分析的算法需要平等摆革命性的变革?

 

题目取得好中意,其实就是是《数学的美》这按照开之读书笔记。这是每一个想学编程了解计算机的总人口还不应有去之好书,必须引进

第2章 自然语言处理 — 从规则及统计

图灵测试(Turing
Test)—-让人与机械进行交流,如果人无法断定自己交流之目标是丁要机器时,就证明这个机器发出智能了。

自然语言处理采用句法分析和语义理解还是倒不通,全面地转发统计模型方法了。难道自然语言经过了几千年之演变,已经换得相当复杂,许多语法并无是尽人皆知的而是模糊的?已经休克为此微机来拍卖?还是句法分析的算法需要一致场革命性的革命?

 

第3段 统计语言模型

条件概率P(w2|w1):已经率先只词w1的前提下,第二独词w2出现的票房价值。

P(w2|w1) ≈ #(w1, w2) / #(w1)

其中:#(w1,
w2)是w1,w2两只词连出现的次数,#(w1)是w1出现的次数,上述公式是当统计数据特别大之情下建。

零概率问题之处理:古德-图灵估计(Good-Turing Estimate)

 


看这个名字,你或觉得她便是平等如约提数学之写,觉得无聊而直白就是想扔掉。但她实际上是如出一辙遵照非常适合于机器上及算法入门的处理器广泛书籍。作者将他行各种科
研,以及以GOOGLE多年行事之眼界,都缩水在当时本书里,用浅显易懂的言语,给我们开了平等不成机器上科普,厘清了各种概念数学原理算法的前生今生,
还明白她怎么当搜寻世界、自然语言识别领域非常放光彩。

第3节 统计语言模型

极概率P(w2|w1):已经率先只词w1的前提下,第二独词w2出现的几率。

P(w2|w1) ≈ #(w1, w2) / #(w1)

其中:#(w1,
w2)是w1,w2两只词连出现的次数,#(w1)是w1出现的次数,上述公式是当统计数据很特别之景象下树立。

零概率问题之处理:古德-图灵估计(Good-Turing Estimate)

 

第4回 谈谈中文分词

就此统计模型可以非常好地解决中文分词问题。

 

 

第4段 谈谈中文分词

故此统计模型可以挺好地解决中文分词问题。

 

第5节 隐含马尔可夫模型

旋即无异于回和概率论、随机过程联系起来了,想想大学时拟的一点点概率论的教程,几乎从不什么印象了。

那么话题扯回来,为什么看了就仍开,会起种植——数据解析,他们曾起来在举行——的感觉到吧?

第5段 隐含马尔可夫模型

当时同一回和概率论、随机过程联系起来了,想想大学时拟的一点点概率论的教程,几乎没有啊记忆了。

第6章 信息之心地和用意

此前做数据压缩时为遇过Shannon给熵做的定义,给得随机变量X,fX为X的概率密度函数,则该熵h(X)为:

图片 1

一个离散化的公式,对于离散信号X={x1, x2, …,
xk
},
P(X=xi)表示xi出现的几率,则该信号的音熵为:

图片 2

 

第6节 信息之度量和图

先做数据压缩时也遇上过Shannon给熵做的概念,给得随机变量X,fX为X的概率密度函数,则该熵h(X)为:

图片 3

一个离散化的公式,对于离散信号X={x1, x2, …,
xk
},
P(X=xi)表示xi并发的票房价值,则该信号的音讯熵为:

图片 4

第7章 贾里尼克同现代语言处理

即时同一节里摆到少年时的傅问题,有少数只观点于倾向。中学阶段花了杀丰富时比较同伴多读的课程,在高等学校以后得为此异常缺乏的日读了,因为大学时期的理
解力比中学时要后来居上多倍。学习(和教育)是一个丁一生之经过,中国底儿女由于中学阶段读了大量之讲义,在大学后数厌倦了读。

实际上,虽然近些年来数据解析数据挖掘机器上的概念特别特别恼火,可能多丁会晤当这是邻近几年才逐步重视起并摇身一变相同模拟模拟方法论的初东西。但是实际上早于微机设计之初端,数据解析和挖,就使用叫写代码来算法的一体了。

第7章节 贾里尼克和现代语言处理

当时等同章里讲到少年时之育问题,有少单观点于赞同。中学阶段花了充分丰富日子比同伴多读的科目,在大学后得据此大紧缺的年月读了,因为大学时代的懂得力比中学时只要高博倍增。学习(和教诲)是一个总人口一辈子底过程,中国的子女由中学阶段读了大气底教科书,在高校以后往往厌倦了翻阅。

第8章节 简单的美

此地提到了抓好搜索的一个经历,最基本的求就是每日分析10-20只坏的探寻结果。对于人工智能中之机器博弈来说,每天举行10-20单坏的范畴评估的剖析是免是也是同等栽提高的法门?

 

抽象点来说,是算各种算法的复杂度。具体一点,从一个google搜索引擎的开支,需要科研人员反反复复去衡量计算机资源以及活功能间的最为佳解,到以各种开销被不停止地追打字速度最精,分析瓶颈,都是统计数据、分析问题、抽象解决的总三学。曾听人吐槽说,“向来没啊新的数科学家,很多课本来就是建立在数统计与析基础及的,数据科学家一直就有”。

第8章 简单的美

此地提到了搞好搜索的一个更,最基本的求就是每日分析10-20个坏的搜结果。对于人工智能中之机器博弈来说,每天举行10-20个坏的框框评估的分析是不是吧是平等栽提高的点子?

 

第9段 图论和网爬虫

此涉及了人工智能中问题求解算法中常用的广度优先搜索BFS和深度优先搜索DFS。

正因如此,我们得说,数据解析与打,早就为运用在处理器对的满了。所以脱离了编程和对电脑理解的机器上和数据解析是以打流氓。反倒来,如果数据解析上遇到瓶颈,通过更加读书算法及其实际采用,了解数据结构和规划,了解编程,也许会重复迅捷得突破瓶颈期。

第9章节 图论和网爬虫

这边提到了人工智能中问题求解算法中常用的广度优先搜索BFS和纵深优先搜索DFS。

第10章 PageRank — Google的民主表决式网络排名技术

从未看明白,以后再说。

 

第10回 PageRank — Google的民主表决式网络排名技术

从来不看明白,以后再说。

第11回 如何确定网页和查询的相关性

TF-IDF

 

若是以上这些思想,正是《数学之美》里为我们展示的神奇世界。

第11段 如何确定网页和查询的相关性

TF-IDF

 

第12章 地图及本土搜索的太中心技术-有限状态机和动态规划

 

 

第12章 地图和本地搜索的卓绝核心技能-有限状态机和动态规划

 

第13段 Google AK-47 的设计者

 

此外,在当下本书里,作者还拿他这些年科研的各种经历道理,穿插在一个个案例中描述。譬如说,“简短模型在工业界的实用性”,认为“法技术学‘道’比学‘术’更加要”等等。他尚反复强调要差不多分析好结果,认为简单可行之解决方案,往往建立于针对细节充分的研讨及思维上。这些对经验不足的人口,确实是十分宝贵的财物。

第13段 Google AK-47 的设计者

 

第14章 余弦定理和资讯的分类

本余弦定理中计算向量的夹角,还得据此来比单薄组特征的相似度,这是首先软翻看本书时叫自家道谢兴趣之从事。一个中学时拟到之学识,实际上在实际上被凡是发生
许多使用的。如果中学老师知道这些大规模的应用,可能会见激发学生的卓绝兴趣,当你懂空间中之夹角实际上可以投为现实生活中的其余性质,展开了这种想象
后,数学知识才能真的发挥其作用。

cos(A) = (b*b + c*c – a*a) / (2*b*c)

 

第14章 余弦定理和情报之归类

原本余弦定理中计算向量的夹角,还可用来比较有限组特征的相似度,这是首先不行翻看本书时吃自己感谢兴趣之行。一个中学时学到的知,实际上以事实上被凡是发生成百上千下之。如果中学老师知道这些大的使用,可能会见刺激学生的绝兴趣,当您明白空间中之夹角实际上可以射为现实生活中之任何性质,展开了这种设想后,数学知识才能真正发挥其用意。

cos(A) = (b*b + c*c – a*a) / (2*b*c)

第15段 矩阵运算和文本处理中之点滴只分类问题

此间提到了矩阵的奇异值分解,在高校时自我直接没来明白矩阵的同一生堆运算是怎么用底。

 

说到最后,我倒正是认认真真把当时本开看了了。但是由《数学的美》有三十一只章,几乎每个章节都以道不同之主题,信息量较充分。为了以后随图索骥,继续深入学,特于此花费了头时间梳理了瞬间各章节的系统及规范词汇/人名,供大家参考。

第15节 矩阵运算和文本处理中之有数独分类问题

此地涉及了矩阵的奇异值分解,在大学时我直接尚未下手懂矩阵的一样生堆运算是怎么用之。

 

第16节 信息指纹及其应用

这里涉及了再次好之即兴数生成算法—-梅森旋转算法Mersenne
Twister,正好我之Zobrist
HASH算法中需要用到比如机数,想试试这还好的任意数能无克抽部分HASH冲突?从网上搜了一晃找到了相关C语言代码,在自之Visual
Studio 2010惨遭起链接错误,还尚无找到原因。

此地涉及的消息指纹以及中国象棋局面表示中的Zobrist HASH算法是看似之。

 

 

第16章节 信息指纹及其使用

此处涉及了再度好之擅自数生成算法—-梅森旋转算法Mersenne
Twister,正好我之Zobrist
HASH算法中需用到以机数,想尝试这又好之任意数能无可知减少一些HASH冲突?从网上查找了瞬间找到了有关C语言代码,在自己的Visual
Studio 2010遭到出现链接错误,还没找到原因。

此涉及的音信指纹以及中国象棋局面表示着的Zobrist HASH算法是看似的。

 

第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

关于大素数分解的加密算法

 

 

第17章节 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

关于大素数分解的加密算法

 

第18章节 闪光的非必然是金子 — 谈谈搜索引擎的反作弊问题

不关心。

 

末端的始末其实读不下来了,也非体贴了,只有布隆过滤器兴许针对己还时有发生来用,以后再说吧,把段的名号在此处吧。

 

第19段 谈谈数学模型的第一

第20回 不要拿鸡蛋置于一个篮子里 — 谈谈最老熵模型

第21章 拼音输入法之数学原理

第22章 自然语言处理的教父马库斯和外的优质弟子们

第23节 布隆过滤器

第24段 马尔可夫链的扩张 — 贝叶斯网络

第25回 条件仍机场跟句法分析

第26节 维特比和他的维特比算法

第27章节 再出口文本自动分类问题 — 期望最大化算法

第28节 逻辑回归和找广告

第29章节 各个击破算法和Google 云计算的根底

章节

第18节 闪光的未肯定是金 — 谈谈搜索引擎的反作弊问题

不关心。

 

后面的情其实读不下来了,也未体贴了,只有布隆过滤器莫不针对自家还出把用,以后再说吧,把段的称呼在此处吧。

 

第19章 谈谈数学模型的第一

第20段 不要管鸡蛋置于一个篮子里 — 谈谈最特别熵模型

第21章 拼音输入法之数学原理

第22章 自然语言处理的教父马库斯及外的可观弟子们

第23回 布隆过滤器

第24章 马尔可夫链的扩大 — 贝叶斯网络

第25段 条件仍机场和句法分析

第26回 维特比和外的维特比算法

第27节 再谈文本自动分类问题 — 期望最大化算法

第28回 逻辑回归和摸索广告

第29节 各个击破算法和Google 云计算的基本功

概述

关键字

第1回 文字和言语 vs 数字和信息

众人以自然语言处理里既走过弯路——过于关注句法和文书分析。但这种措施复杂度过大且无法充分好适配新句法,1970s后人们提出因[通信系统]和[寓马尔科夫模型]的自然语言处理方法。而就计算机技术的前进,[统计]术还为人所知,在工业界广泛应用[数挖掘/网页搜索/语音识别/机器翻译]

机智能 图灵测试 隐含马尔科夫模型 FrederickJelinek IBM华生实验室
PeterBrown

第2章 自然语言处理——从规则及统计

第3节 统计语言模型

因此统计的计做自然语言处理,不再追究句法是否站得住,而是统计哪一样种句法在语料库里最经常出现。
依据[马尔代夫假设]/条件概率,统计语言模型的计算变得更为简明有效,逐渐在分词、语音识别、机器上里很展头角。

达特茅斯会 马尔科夫假设 马尔科夫链 隐含马尔科夫模型 二最先型
BigramModel 语料库 大数定理 Rosetta

第4章 谈谈中文分词

[统计语言模型]尽管实惠,但每当事实上工作受到需要更迅速之算法。
[通信模型]的引入,把自然语言处理等价于通信模型的解码问题。结合[含蓄马尔科夫模型]。让分词问题/多义词问题,成为[再次粗范围]内之标准化概率,提高了运算效率

查字典 最少次数的分词理论 分词二义性 郭进 动态规划 孙茂松 吴德凯

第5章节 隐含马尔可夫模型

通信模型 LenoardBaum 随机变量 随机过程 独立输出使 维特比算法 语音识别

第6节 信息的襟怀和图

引入[信息熵]概念,把[信息]与[未明了]结合起来。减少信息[莫显眼],其实是一个尺码概率(已掌握Y,若X/Y相关,则能重复了解X),为[互信息]

香农 信息熵 比特 信息量 冗余度 通信的数学原理 消除无确定性 联合概率分布
条件概率分布 互信息 语料  DavidYarowsky 

第7节 贾里尼克与现代语言处理

人物传记

信息六元素 RomanJakobson 最要命熵迭代算法 BCJR算法 维特比算法 ICASSP CLSP 

第8章 简单的美-布尔代数和找引擎的目录

搜的基本:按[图]下载尽可能多之网页,用[TRUE/FALSE]起网页根本词之目,利用[PageRank]支配排序,再通过[TF-IDF]权衡关键词权重,提高查询以及网页中的[相关性]

第二进制 布尔代数 GottfriedLeibniz 二上制计算机 香农 量子力学 离散数学
索引 分布式存储

第9章 图论和网爬虫

离散数学 数理逻辑/布尔运算 图 遍历Traverse 广度优先找 深度优先找 弧
网络爬虫 散列表HashTable

第10节 PageRank -Google的民主表决式网名

网页质量信息 PageRank 民主表决 链接权重 稀疏矩阵计算 系统论 信息搜索课程

第11节 如何确定网页和询问的相关性

概率模型 TF-IDF 关键词权重 词频 停止词 KarenSparckJones 文献上报
交叉熵 Kullback-LeiblerDivergence

第12章 有限状态机和动态规划——地图和地面搜索的不过核心技巧

利用[零星状态机]开展地址分析(省/市/县定位识别),又为小地方不正规,要因此到[据悉概率的马尔科夫链]展开解析。而以片单地点间设计路,采用[图]里的[动态规划]开展高效搜索

零星状态机 有往图 有往弧 开始状态 终止状态 模糊匹配 基于概率的有数状态机
离散的马尔科夫链 AT&T 加权图 最差里程径 动态规划DynamicProgramming 

第13章 Google AK-47 的设计者 — 阿米特·士

人物传记:寻找简单实用之解决措施

AmitSinghal Ascorer 网络检索着的舞弊问题 模型压缩 简单方法的管用
UdiManber 文本的句法分析 机器学习 分析不好的结果

第14章 余弦定理和消息之归类

对此新闻分类,利用TF-IDF描绘新闻文本(特征向量),认为向量夹角(余弦定理)可以描述两者间的相关性。但当朝量了死时,需要引用[矩阵]中的[奇异值分解],以减小计算过程。另外,由于数据量过很,工业界在研究而MapReduce等并行算法。

讯活动分拣 TF-IDF 特征向量 特征向量之间的相似性 向量代数 余弦定理
余弦相似性 自底向上不断统一 RaduFlorian 自动分拣 论文评审 

第15节 矩阵运算和文本处理中之点滴单分类问题

数值分析 线性代数 矩阵 奇异值分解 SVD 加权词频 矩阵特征值 数值分析
奇异值分解的并行算法 

第16章节 信息指纹及其使用

在[纱爬虫]时,要在[散列表]备受记录曾造访了之网址。当长文本不便民数据匹配,为了效率,利用[伪随机数产生器],将消息成为二前进制随机数。这个可是用来[加密]、[文章相似度匹配]等领域

信息熵 无损压缩编码 散列表 随机映射 128各类二前行制 信息指纹
伪随机数有器算法 PRNG 梅森旋转算法Mersenne Twister
加密的伪随机数出器CSPRNG 判断集合基本相同 想死哈希 关键帧的领
视频特征提取

第17章节 由电视剧《暗算》所想到的 — 谈谈原理

凯撒大帝 信息论 跳舞的小人 反函数 自变量 亚德利HerbertOsborneYardley
中国黑室 公开秘钥 RSA算法 Rabin算法 互素 公约数

第18节 闪光之莫肯定是黄金

除排序和扣留相关性以外,要破噪音[查找引擎作弊]跟判断搜索结果的[权威性]。对噪音消除做[解卷积],对全文进行[句法分析],找到[提及]信息,判断信息源的权威性

网页排名作弊 反作弊 重复第一词 买买链接 通信模型 抗噪声 振幅相反
汽车噪声 解卷积 卷积 相关性 高斯白噪声 抗干扰 出链 余弦距离 图论 Clique
去噪音 搜索结果权威性 提同 句法分析 信息源描述 互信息 聚合 收敛

第19段 谈谈数学模型的第一

通过天文学的事例再次强调数学模型的重大

椭圆模型

第20段 不要把鸡蛋置于一个篮子里 — 谈谈型

极端酷熵模型,即保留却只能确定性,这是[指数型]。在很多地方还为此到

最深熵 椭圆模型 AT&T 不确定性 指数型 I.Csiszar 归一化因子
AdwaitRatnaparkhi 词性标识系统 句法分析器 对冲基金 文艺复兴技术公司

第21章 拼音输入法的数学原理

输入法的频率,利用词和上下文相关性提高效率。涉及[动态规划]及[语料库]

平均击键次数 消除歧义香浓第一定理 信息熵 词库 语言模型 概率论 动态规划
通信问题 有往图

第22章 自然语言处理的教父马库斯与他的学童

介绍部分科学家的研讨思路

MitchMarcus LDC语料库句子分析 分析器 柯林斯 因变换规则的机械上方式
词性标注

第23章节 布隆过滤器

用来判断一个要素是否以一个集合里

散列表 布隆过滤器 二上制向量 随机映射 信息指纹 垃圾邮件过滤

第24章 马尔可夫链的扩张 — 贝叶斯网络

介绍[马尔科夫]铺天盖地推广。如[贝叶斯网络]举凡马尔科夫链的放,解决多个节点的几率计算,在[分词]达发出特异就。而[规范仍机场]类似于[贝叶斯网络],只不过它属于[无向图],与[最大熵]关系起。另外,[括括号]把[文法分析]跟数学模型关联起来,更管用进行文本分析。

贝叶斯网路 可信度 贝叶斯公式 联合概率分布 结构训练 参数训练 NP完备问题
词分类 文本分类 Rephil局部最优 蒙特卡罗方法 EM过程

第25段 条件仍机场与句法分析

一同概率分布 文法分析 语义分析 拉纳帕提 括括号 最要命熵模型 对数函数
浅层分析 条件仍机场 无为图 隐含马尔科夫模型 边缘分布 大数定理 指数函数
Gparser 犯罪预测 模式识别 机器学习 生物统计 预防犯罪率

第26段 维特比和他的维特比算法

[维特比算法]属于[动态规划算法],针对[篱笆网络]这种非常的觊觎,可化解多[含有马尔科夫链]的模型。

AndrewViterbi 高通 动态规划 篱笆网络 有向图太缺里程径 隐含马尔科夫模型
状态跳跃 状态自环 输入法解码 扩频传输 噪音 时分多址 频分多址 FDMA TDMA
CDMA 高通公司

第27节 再道文本自动分拣问题 — 期望最大化算法

介绍了使Kmeans聚类,逻辑回归,分布式运算、人工神经网络的基础内容。

期望最大化 文本机关分类 自底向上 文本中心 收敛 迭代 

第28节 逻辑回归和找广告

逻辑回归 一重叠的人工神经网络 训练最充分熵模型 IIS

第29节 各个击破算法和Google 云计算的底子

分开治算法 各个击破 MapReduce 归并排序

第30节 Google大脑和人工神经网络

纵深上 Google大脑 有向元 贝叶斯网络 人工神经网络

第31章 大数据

切比雪夫不等式

相关文章