Sign in or Join FriendFeed
FriendFeed is the easiest way to share online. Learn more »

Andre › Comments

Andre
使用grep恢复被删文件内容 | 酷壳 - CoolShell.cn - http://coolshell.cn/article...
grep -a -B 50 -A 60 'some string in the file' /dev/sda1 > results.txt 说明: 关于grep的-a意为–binary-files=text,也就是把二进制文件当作文本文件。 -B和-A的选项就是这段字符串之前几行和之后几行。 /dev/sda1,就是硬盘设备, > results.txt,就是把结果重定向到results.txt文件中。 - Andre
Andre
rsync 的核心算法 | 酷壳 - CoolShell.cn - http://coolshell.cn/article...
评论中说:既然是從Wikipedia上翻譯過來的,應該也會在文內看到這一段吧 http://en.wikipedia.org/wiki... “the rolling checksum of bytes n+1 through n+s can be computed from R, byte n, and byte n+s without having to examine the intervening bytes.” 把這關鍵的設計漏掉,這篇文章等同於宣稱rsync是個暴力到不行的低效率解法。 - Andre
Andre
网络营销数据解读(二)——事情不是你看到的那样 « Mars Opinion - http://www.marsopinion.com/2009...
A与B的相关关系不一定代表因果关系,A与B的因果关系不一定代表A是唯一的原因。 - Andre
Andre
阿倫的孤獨星球 - http://alunwk.me/?fc440ed0
去了陈士骏的Avos - Andre
Andre
问一个银行家算法避免死锁的题!谢谢大家 - 软件培训/认证/考试 / 软件水平考试 - http://topic.csdn.net/t...
银行家算法 - Andre
Andre
死理性派恋爱法:拒绝掉前面37%的人 - 死理性派 - 果壳网 guokr.com - http://www.guokr.com/article...
没看懂这个公式!公式!公式! - Andre
Andre
IEEE Xplore - Abstract Page - http://ieeexplore.ieee.org/xpl...
IBM Waston论文合集 - Andre
Andre
哈希表心得 - 陈皓专栏 【空谷幽兰,心如皓月】 - 博客频道 - CSDN.NET - http://blog.csdn.net/haoel...
哈希表的使用 - Andre
Andre
欢迎乘坐空军值班飞机_迈腾论坛_XCAR 爱卡汽车俱乐部 - http://www.xcar.com.cn/bbs...
空军值班飞机 - Andre
Andre
国家要高度重视二季度可能发生的通胀问题_猴王_新浪博客 - http://blog.sina.com.cn/s...
怎么办? - Andre
Andre
今年为什么没有年三十? - 死理性派 - 果壳网 guokr.com - http://www.guokr.com/article...
由于二十四节气反映了太阳的周年视运动,所以它和阳历是相当契合的。这也是为什么二十四节气的日期在公历中相对确定,上半年一般在每月的 6 日和 21 日,下半年则在每月的 8 日和 23 日。 - Andre
Andre
王石:哈佛这一年我获得新生 - http://www.douban.com/group...
“谈到西方文明,就无法回避基督教。以前我总是困惑上帝究竟存不存在,现在我发现,这不是要点,要点是宗教背后的文化诉求。”王石说,现代企业制度的根源跟基督教密不可分,包括现代企业管理提到的“契约精神”,可以在《圣经》的旧约中找到最早的故事。 - Andre
Andre
再举另一个网络时代的例子。在互联网和手机搜索上,如果要找附近的咖啡店,那么搜索引擎该怎么处理这个请求呢? 最简单的办法就是把整个城市的咖啡馆都找出来,然后计算出它们的所在位置与你之间的距离,再进行排序,然后返回最近的结果。但该如何计算距离呢?图论里有不少算法可以解决这个问题。 这么做也许是最直观的,但绝对不是最迅速的。如果一个城市只有为数不多的咖啡馆,那这么做应该没什么问题,反正计算量不大。但如果一个城市里有很多咖啡馆,又有很多用户都需要类似的搜索,那么服务器所承受的压力就大多了。在这种情况下,我们该怎样优化算法呢? 首先,我们可以把整个城市的咖啡馆做一次“预处理”。比如,把一个城市分成若干个“格子(grid)”,然后根据用户所在的位置把他放到某一个格子里,只对格子里的咖啡馆进行距离排序。 问题又来了,如果格子大小一样,那么绝大多数结果都可能出现在市中心的一个格子里,而郊区的格子里只有极少的结果。在这种情况下,我们应该把市中心多分出几个格子。更进一步,格子应该是一个“树结构”,最顶层是一个大格——整个城市,然后逐层下降,格子越来越小,这样有利于用户进行精确搜索——如果在最底层的格子里搜索结果不多,用户可以逐级上升,放大搜索范围。 上述算法对咖啡馆的例子很实用,但是它具有通用性吗?答案是否定的。把咖啡馆抽象一下,它是一个“点”,如果要搜索一个“面”该怎么办呢?比如,用户想去一个水库玩,而一个水库有好几个入口,那么哪一个离用户最近呢?这个时候,上述“树结构”就要改成“r-tree”,因为树中间的每一个节点都是一个范围,一个有边界的范围(参考:http://www.cs.umd.edu/~hjs... 通过这个小例子,我们看到,应用程序的要求千变万化,很多时候需要把一个复杂的问题分解成若干简单的小问题,然后再选用合适的算法和数据结构。 - Andre
Andre
腾讯副总裁张小龙谈微信:对人性把握最重要_科技_腾讯网 - http://tech.qq.com/a...
微信并不是奔着泡妞来的,但它毕竟也是有副作用的嘛,会引入一些陌生人到你的通讯录里面。但是,就像KK写的《失控》,最终用户群有群体效应,会产生自己的一种方向。我们有时候做产品也没有办法做个预测,把这个东西放在群体里以后会产生什么样的效应。   互联网先知、《连线》杂志前主编凯文·凯利写了《失控:机器、社会与经济的新生物学》一书,发现蜂群思维会产生“卡夫卡式噩梦”效应。   做了这么多年工作以后,说老实话,我感觉对人性的把握是最重要的,因为资源很丰富的时候想做的事情都可以做到。但是我现在越来越难判断什么是好的、什么是坏的。很多人通过微信去找到一夜情,我甚至不能判断这样是做对了还是做错了。我没法把这个放在道德层面上想。这个确实也会跟做这个行业的人观念有关系,就像在微博上大家会看日本的AV女星,她也是在解放人的心态,也有积极作用。 - Andre
Andre
文本分类入门(五)训练Part 2 - 技术分享 - 豆豆网 - http://tech.ddvip.com/2009-03...
再重复一次,所谓样本,也叫训练数据,是由人工进行分类处理过的文档集合,计算机认为这些数据的分类是绝对正确的,可以信赖的(但某些方法也有针对训练数据可能有错误而应对的措施)。接下来的一步便是由计算机来观察这些训练数据的特点,来猜测一个可能的分类规则。 Rocchio算法 Rocchio算法做了两个很致命的假设,使得它的性能出奇的差。一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。 KNN 其基本思想是在给定新文档后,计算新文档特征向量和训练文档集中各个文档的向量的相似度,得到K篇与该新文档距离最近最相似的文档,根据这K篇文档所属的类别判定新文档所属的类别(注意这也意味着kNN算法根本没有真正意义上的“训练”阶段)。这种判断方法很好的克服了Rocchio算法中无法处理线性不可分问题的缺陷,也很适用于分类标准随时会产生变化的需求(只要删除旧训练文档,添加新训练文档,就改变了分类的准则)。   kNN唯一的也可以说最致命的缺点就是判断一篇新文档的类别时,需要把它与现存的所有训练文档全都比较一遍,这个计算代价并不是每个系统都能够承受的。 朴素贝叶斯  首先,P(d| Ci)之所以能展开成(式1)的连乘积形式,就是假设一篇文章中的各个词之间是彼此独立的,其中一个词的出现丝毫不受另一个词的影响(回忆一下概率论中变量彼此独立的概念就可以知道),但这显然不对,词语之间有明显的所谓“共现”关系,   其二,使用某个词在某个类别训练文档中出现的次数来估计P(wi|Ci)时,只在训练样本数量非常多的情况下才比较准确(考虑扔硬币的问题,得通过大量观察才能基本得出正反面出现的概率都是二分之一的结论,观察次数太少时很可能得到错误的答案) - Andre
Andre
文本分类入门(四)训练Part 1 - 技术分享 - 豆豆网 - http://tech.ddvip.com/2009-03...
也就是说,D是一个65,000维的向量,而所有的文本向量w2,w3,wn也全都是65,000维的!(这是文本分类这一问题本身的一个特性,称为“高维性”)想一想,大部分文章仅仅千余字,包含的词至多几百,为了表示这样一个文本,却要使用65,000维的向量,这是对存储资源和计算能力多大的浪费呀!(这又是文本分类问题的另一个特性,称为“向量稀疏性”,后面会专门有一章讨论这些特性,并指出解决的方法,至少是努力的方向) 这个问题是训练阶段要解决的第一个问题,即如何选取那些最具代表性的词汇。对这个问题的解决,有人叫它特征提取,也有人叫它降维。 特征提取实际上有两大类方法。一类称为特征选择(Term Selection),指的是从原有的特征(那许多有用无用混在一起的词汇)中提取出少量的,具有代表性的特征,但特征的类型没有变化(原来是一堆词,特征提取后仍是一堆词,数量大大减少了而已)。另一类称为特征抽取(Term Extraction)的方法则有所不同,它从原有的特征中重构出新的特征(原来是一堆词,重构后变成了别的,例如LSI将其转为矩阵。 - Andre
Andre
文本分类入门(三)统计学习方法 - 技术分享 - 豆豆网 - http://tech.ddvip.com/2009-03...
而实际上,文本是一种信息载体,其所携带的信息由几部分组成:如组成元素本身的信息(词的信息)、组成元素之间顺序关系带来的信息以及上下文信息(更严格的说,还包括阅读者本身的背景和理解)[12]。   而VSM这种文档表示模型,基本上完全忽略了除词的信息以外所有的部分,这使得它能表达的信息量存在上限[12],也直接导致了基于这种模型构建的文本分类系统(虽然这是目前绝对主流的做法),几乎永远也不可能达到人类的分类能力。后面我们也会谈到,相比于所谓的分类算法,对特征的选择,也就是使用哪些特征来代表一篇文档,往往更能影响分类的效果。   对于扩充文档表示模型所包含的信息量,人们也做过有益的尝试,例如被称为LSI(Latent Semantic Index潜在语义索引)的方法,就被实验证明保留了一定的语义信息(之所以说被实验证明了,是因为人们还无法在形式上严格地证明它确实保留了语义信息,而且这种语义信息并非以人可以理解的方式被保留下来),此为后话。 - Andre
Andre
文本分类入门(二)文本分类的方法 - 技术分享 - 豆豆网 - http://tech.ddvip.com/2009-03...
制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受;而知识工程最致命的弱点是完全不具备可推广性,一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金浪费。 - Andre
Andre
文本分类入门(一)文本分类问题的定义 - 技术分享 - 豆豆网 - http://tech.ddvip.com/2009-03...
第一,用于分类所需要的类别体系是预先确定的。 现在一说到文本分类,大部分人想当然的将这个问题简化为判断一篇文章说的是什么,这只是文本分类的一小部分应用,我们可以称之为“依据主题的分类”。实际上,文本分类还可以用于判断文章的写作风格,作者态度(积极?消极?),甚至判断作者真伪(例如看看《红楼梦》最后二十回到底是不是曹雪芹写的)。总而言之,凡是与文本有关,与分类有关,不管从什么角度出发,依据的是何特征,都可以叫做文本分类。 - Andre
Andre
文本分类入门(十)特征选择算法之开方检验 - 技术分享 - 豆豆网 - http://tech.ddvip.com/2009-03...
针对英文纯文本的实验结果表明:作为特征选择方法时,开方检验和信息增益的效果最佳(相同的分类算法,使用不同的特征选择算法来得到比较结果);文档频率方法的性能同前两者大体相当,术语强度方法性能一般;互信息方法的性能最差(文献[17]) 但开方检验也并非就十全十美了。回头想想A和B的值是怎么得出来的,它统计文档中是否出现词t,却不管t在该文档中出现了几次,这会使得他对低频词有所偏袒(因为它夸大了低频词的作用)。甚至会出现有些情况,一个词在一类文章的每篇文档中都只出现了一次,其开方值却大过了在该类文章99%的文档中出现了10次的词,其实后面的词才是更具代表性的,但只因为它出现的文档数比前面的词少了“1”,特征选择的时候就可能筛掉后面的词而保留了前者。这就是开方检验著名的“低频词缺陷“。 - Andre
Andre
高利民:品牌物品“中贵美贱”的身份学密码 - http://www.douban.com/group...
当身份物品品类的增长赶不上需求的增长时,市场中现存的身份物品就获得了超额的溢价。这,就是“中贵美贱”的根子所在。 - Andre
Andre
文本分类入门(十一)特征选择方法之信息增益 - 技术分享 - 豆豆网 - http://tech.ddvip.com/2009-03...
写的非常好! - Andre
Andre
Case Studies - JDA Software: The Supply Chain Company - http://www.jda.com/custome...
凯捷咨询面试时,推荐阅读和Supply Chain Management先关的网站。 - Andre
Andre
不断提高自己的境界_李航博士_新浪博客 - http://blog.sina.com.cn/s...
康德在代表作《纯粹理性批判》中主张:我们所认识的世界是我们用自己拥有的理论对自己观察到的现象做出的解释。纸上的一条墨迹,数学家把它看成是平面上的直线,中国人把它看成汉字的“一”。我们对现象的观察都是受“意图”(intent)影响的,不同的意图会带来不同的观察结果。做科学研究时也是一样,如果不是带着一个强烈的新意图去观察现象,是不会有新发现的。科学研究的成果必须是客观的,而科学研究的过程却是主观带动的。这是一个非常有趣的事实,也说明科学研究中,磨炼自己悟性的重要。 - Andre
Andre
马化腾:互联网新时代的晨光 - 互联网 - 创业邦 - http://news.cyzone.cn/news...
最近有幸读了两本克莱·舍基的书。第一本是《未来是湿的》,相信大家都知道,《认知盈余》是第二本。作者不愧为“互联网革命最伟大的思考者”,他对互联网给人类所带来的行为举止以及文化的变迁洞若观火。这两本著作一脉相承,它们所探讨的是这样几个问题:随着全球用户接触互联网的门槛变得越来越低,互联网用户数量变得更加庞大,它们将形成什么样的社会形态?我们又该如何顺应这种变化?而作为互联网的从业者们,该如何从中寻找自己的机会? - Andre
Andre
小米手机定价与《怪诞行为学》 | 《商业价值》杂志 - http://content.businessvalue.com.cn/post...
或许有人会说,苹果公司不就是这么干的吗?可是iPhone和小米手机的关键区别在于,前者让大众相信,这是一件从未被人们所知的东西,是颠覆性的产品,因此它能给予一个初次“锚”定,摆脱之前的参照物;后者则是用一个颠覆性的价格来重新“锚”定一个产品,它无法摆脱对比 - Andre
Andre
广告业的技术新势力 | 《商业价值》杂志 - http://content.businessvalue.com.cn/post...
随着广告媒体的一步步变迁,从门户时代,到搜索时代,再到当下的社交网络时代,媒体受众的行为已然高度碎片化,单纯的代理模式显然不能覆盖准确的用户 - Andre
Andre
被诅咒的信息不对称 | 《商业价值》杂志 - http://content.businessvalue.com.cn/post...
携程几年前似乎就已经意识到信息落差衰减的必然性,所以一直花大力气发展商旅管理和旅游服务等新业务;然后开始打造一站式的服务平台;同时继续竭力在全国分销商和地推能力上建立绝对优势。 - Andre
Andre
掘金“剩余价值” | 《商业价值》杂志 - http://content.businessvalue.com.cn/post...
更尴尬的境遇是,太高调会很快被封杀,太低调又很难拿到投资和资源。邓天卓甚至不敢把所有合作的酒店资源一次性推出,担心暴露引来对手打压 - Andre
Andre
人生需要一点形而上思考–关于目标 - 说服力(PPT·逻辑·设计·技巧·演讲·读书·分享) - http://www.70man.com/?p=8903
我所有的工作都基于一个简单的方法论,“目标–策略–行动–能力–验证”,依据能力,找对目标,选好策略,立即行动,小心求证,做项目管理,玩网络推广,写PPT书籍等等,都是如此。 对普通人而言,了解一个方法论很容易,但变成自己的习惯就得不断训练,反复用上几十次,最好是不同的事情都用上几十次,才能成为自己的心法。只靠看书听课交流,始终不能成为自己的武功。 - Andre
Other ways to read this feed:Feed readerFacebook