垃圾评论来自哪里

自从建了这个blog,先是观察到几乎每天都有来自俄罗斯的浏览量,豆瓣友邻打趣说是被黑产盯上了。也许地区有些扫描IP的程序不断尝试发现新建的站点,毕竟这个站点几乎没人知道。但也不太担心网站被攻击,DDoS我相信腾讯云会防范,退一万步讲,敢在前大流氓脑袋上动土,不会有很好的下场。

继而有莫名其妙的评论。垃圾评论我是见过的,之前架设过论坛,几周不管后就充斥着各种灰色广告,吓的我马上关了站点。

另外有一种神奇的广告术,因为使用自己注册的邮箱群发垃圾广告,很容易被识别,继而屏蔽。识别的技术日新月异,比如基于文本的方法,中文与英文不同,不存在天然的单词,因此分词做的不好,所以让机器理解语言也困难,近年来这样的情况有所改善,中文也逐渐能被机器断句。识别垃圾信息很大一部分就靠文本分析——至少让我来设计系统我会这么做——其他肯定还会考虑原来的IP、使用的设备等等,但文本一定是首要的。

而屏蔽是有代价的,邮件系统没有拦下垃圾邮件问题不大,虽然很烦人,但是问题不大,但是错误拦下了重要邮件就会造成大麻烦,比如读研期间我就没有收到住宿信息的邮件,教务处不知道用了什么神奇的技术让大多数邮箱系统认为它是垃圾邮件。这就是错误拦截的后果,错放1000问题不大,错杀1个的代价可以非常大。

所以邮箱一定是有豁免列表的,一些大厂一定是有豁免权的。所以黑产可以用要骚扰的邮箱在苹果的网站上注册账户,用户名那一长串就是广告,比如我要是这么干就会写“不在工作日8点前以及周末进行房屋装修是做人的基本底线”,于是邮箱的主人会收到一封email,抬头写着“亲爱的‘不在工作日8点前以及周末进行房屋装修是做人的基本底线’,你已经注册了xxxx,请点击下列链接进行验证”。

我的博客的不知名评论也不是这种,是一些非广告的文本,英文拼写偶尔有错误,但大多数是赞美之词——虽然赞美得不到点上,写评论的人一定看不懂我的博客,因为没人任何原文的引用,也没有讨论博文的内容。英文读起来也十分客气,充满距离感。

这是令人生疑的,发评论的肯定不是美国人,因为英文太蹩脚了;也不是中国人,各国的蹩脚英文各有特色,中国的不是这样的。思前想后,不排除是外星人的可能。

星期一,Google蹭饭

公司终于搬到了陆家嘴,有幸在上海三件套里上班,早上到公司就厚着脸皮找Google的同学求蹭饭。

环球金融中心就在我司边上,辗转了几部电梯到了60多层的餐厅,人意外的不多(上班一年不到,已经难以想象人不多的食堂了。。。),就是传闻中的自助餐厅,质量不错。饭后参观同学的办公区,很有(有钱)互联网公司的氛围,有诸多休闲吧休息室,工位比较紧凑,靠窗可以俯视陆家嘴,适合每天发朋友圈感叹雾霾好大或者天气不错。

公司附近是少有的行人能安心过街的宽马路。下班后办公楼地下走廊直通地铁,但还是喜欢在地面走上约莫七八百米。

算法比赛,无人机

上周开始做携程的销量预测比赛,基于出行产品23个月的成交明细,预测之后14个月的每月销量。尝试了用时序预测的方式做,效果不好,也可能是由于之前没有接触过时序预测的方法。目前选择了回归,建了14个模型,第1个模型用9个月销量预测下一个月,第2个模型用9个月数据隔开一个月预测下一个月,等等。目前离及格线还有距离。

读研时接触的问题通常是一个被同行研究过的问题,在已知的数据集上跑通baseline,然后试着超越,经历更多的放在算法调优、特征选取上。现实问题来自实际需求,可能没有明显的解法,需要对问题进行规约,也许需要数据挖掘,也许简单的规则也能做好。就携程这个比赛来看,formulation比算法更重要。

本周末开始看京东的购买行为预测问题,和之前做过的天猫购买行为预测类似。想起之前轴逼地试图用原始行为数据建模,结果惨败。看了之前天猫比赛的获奖者分享,和初步构想类似。但又碰到了新问题,成交数据在千万级别,单机内存比较难处理了,好用的数仓服务似乎都不便宜,比赛群里有人吐槽本次比赛会提升内存销量,京东打得一手好牌。

讨论完比赛困倦无比,哈欠连连,缺乏锻炼,身体状况不佳。

听说实验室买了Mavic,向师弟借来玩。机翼可以折叠,遥控器也很小,整套装备装在包里,看起来不比一个单反相机更大。悬停、降落也比早起的Phamton稳定可靠,唯独飞起来还是有点怕。

晚上重启跑步,力竭骑共享单车回家。

拉普拉斯妖

高铁上看完了东野圭吾新作《拉普拉斯的魔女》

在一场龙卷风中失去母亲的女主角在几年之后展示出了神奇的预测能力,比如正确预估保龄球能砸到几个瓶子,几点会下雪,打翻的水杯会满溢出多少水等等。

两处度假温泉接连发生硫化氢致人死亡的事故,地球学教授应邀调查。检测显示几乎没有人为作案的可能,自然产生硫化氢的可能性也几乎是零。意外死亡的富有导演留下巨额财产,年轻遗孀似乎有作案动机但几乎是“不可能犯罪”。另一死者是落魄替身演员。两起案件似乎没有关联。

但在两处都看到女主角的地球学教授觉得事情并不简单,深入挖掘发现两名死者都曾和知名编剧有合作关系。翻阅知名编剧的博客发现数年前家中女儿用硫化氢自杀,波及其妻其子,其妻其女当场生亡,其子勉强救回一名但几乎成为植物人。而对其子动手术将其唤醒的医生正是女主角的父亲。

教授把调查所得尽数告诉温泉案的负责警员,警员大赞其发现的线索并深入走访相关人士,惊动女主角父亲,当年动手术的医生。

被走访的医生推断必定是有人在两处事故地点都看到其女儿,于是缩小范围定位到地球学教授,几番见招拆招后医生吐露真相:做完手术后的导演儿子展示出了逆天的预测能力,能观测物理世界的细微变动并预见结果,如同拉普拉斯之妖,更如同开挂的天河走鹃。他的女儿因为丧母之痛而希望拥有预测龙卷风的能力,主动要求也进行了手术。另外,导演之子似乎并没有失去记忆。。。

而另一边警员继续走访曾和编剧有接触的人发现导演的家庭关系并不是他博客描述的那样的和谐,正相反完美主义的导演非常嫌弃妻子子女。。。

编剧策划了当年的硫化氢事故,为的是摆脱不够完美的家人,以及为自己塑造一个更加完美的真人故事。帮凶正是两期温泉事故的身亡者,两期事故正是其子的复仇行为,通过预见高浓度的硫化氢位置并引诱仇人进入。。。

大结局里,男主通过预见冰雹手刃杀母仇人,而女主提前发现了男主的企图阻住其再次犯罪。

两个拉普拉斯妖在世,对方就是无法预测的变数。。。

恶猫

早晨醒来浑身僵硬,小腿边贴着一只猫——这也是我浑身僵硬的原因,有猫在被窝里潜意识就不敢动,生怕一个翻身压死小猫,虽然领养的时候夏阿姨说猫是软的,压不坏,然后顺手从坐着的沙发角落里捞出一只猫。

领来之前就知道板栗是一只身世坎坷的猫,夏阿姨从弄堂里的小孩手上把猫救来时,板栗前爪溃烂,恶臭难闻;营养不良,从照片看像一只小鹌鹑;玳瑁也是领养人不太愿意领养的花色,所以救来很可能就要赖着猫咖吃喝一辈子。

不过后来板栗被板栗妈一眼相中,要求领养回家,夏阿姨也是满心欢喜解决了一个小包袱。领回家后没多久发现小猫拉稀、口臭、有眼屎鼻屎,给人一种中了七伤拳命不长久的感觉。还记得有一阵子板栗每天半夜拉稀,拉完还恬不知耻地跑上床来钻被窝,硬生生把我和板栗妈臭醒。。。

在后来的大半年里带着板栗四处求医,最终吃小儿蒙脱石散得愈。现在的板栗是家中一霸,上天下地,扒着窗户看鸟,跑到老婆家揍狗,跳上梳妆台踢化妆品下桌子,一不留神躲进碗柜喵喵叫,做各种坏事都毫无悔意,是一只生龙活虎的恶猫。

冬天的猫

在猫咖看到板栗的时候是10月份,是一只孤僻安静的小猫。但是不躲人,因为在猫咖里无处可躲。把板栗抱起来放在腿上,她就安安静静地呆在那里,不亲人也不嫌弃。这些都是老婆告诉我的,我当时在西安开会,头疼欲裂,但是去的应该是真的兵马俑。

把板栗领回家的时候是11月,打开猫包的一瞬间就窜进了柜子底下,柜子底下很小,怎么看都塞不进一只猫,但是板栗进去了,我可能领了假猫。怎么捞也不肯出来,开了猫罐头也不为所动,跟在猫咖完全两个样。在猫咖时板栗应该与别的猫相处并不愉快,属于被欺负的小猫,也没处躲,带回家受惊过度释放本性躲了起来。

关灯睡觉后不久一头毛茸茸的畜生出现在枕头边上,试图往被子里钻,但这对猫来说似乎是件很有难度的事情。打开被子边缘让板栗进来,她看了又看满满钻进来。第二天开始不把自己当外人了。

如今是养猫的第三个冬天,板栗在家如鱼得水,知道每一个温暖的地方。刚打开被炉的时候就能很娴熟的钻进去,如果人把腿放进被炉碍了她的事,她就用利爪把人推开或者直接用嘴咬;等到被炉开久了,她就眯着眼睛钻出来,绕树三匝,然后在被炉外的被子上睡下,静静等着奴才睡觉;人睡觉后板栗并不急着上来,一来被子没有捂热,二来没睡着的人动作太多,无法相处。但是人早上醒来必然发现自己变上挨着一只猫,有时候会蜷缩在两腿之间,奴才就动弹不得。

出门之前都会把窗帘打开,阳光直射被炉的桌面,一会儿猫就出现在桌面上,瞳孔眯成一条线,胡子贴着脸,满意的看着奴才:你可以走了。

有点阴损的Godaddy

最近突然发现曾经买的某个域名不能访问了,登上godaddy后才发现过期十几天了。域名进入了“竞拍阶段”(无法想象这个域名会有别人“竞拍”),想要买回来价格高得离谱。

于是想在dnspod上看看能不能买回来,发现域名状态是被注册的,而注册人就是我的信息,保留时间是到一年之后。

所以推测goddady大概有这样的策略:用户注册域名是goddady总是多申请一年,这样用户购买的时限到期后不得不在goddady上续费,这时的费用往往高得离谱。这是个聪明的招,也是个挺阴损的招。

 

不写代码后的一些感想

毕业之后顶着工程师的title干着数据分析师的活,到现在已经大半年了。写过的代码是上万行sql,和一些只跑一次的短小脚本。sql也不是数据库里实际运行的代码,而是用于分析的数仓代码。这是我理解中工程师(特指写代码的计算机技术)和分析师的最大区别,工程师产出代码,分析师产出数据、模型……

刚开始很难跳出工程师的思路,潜意识对代码负责而非产出的数据,而实际上没人关心分析师用了多高效的代码,而再精妙绝伦的代码如果产出错误的数据也是不合格的。

技术与上层业务很像是数学和物理的关系。工程师喜欢考虑每种潜在的可能行,保证代码运行无误,对潜在的漏洞会做POC(Proof of Concept)并且兴奋不已,而分析师基本可以忽略小概率事件,蚁穴在没有蛀成大洞之前都不会引起关注。

虽然都有很大一部分人来自计算机背景,干着码代码的活,但工程师和分析师是两种截然不同的工作方式,归根结底是在为不同的产出负责。

戒烟

我不吸烟,写这篇日志只是因为今天干活没啥效率,在睡前写点东西增加完成感。

几周前在高铁上下载了《这本书能让你戒烟》(大概是这个名字吧),断断续续读完了。也不知道是不是真的能让烟瘾者戒烟,总之作者是这样声称的;如果可以,作者大概是这么做的。

首先,读完整本书之前可以尽情吸烟。否则大多数人可能直接弃坑。

其次,反复灌输“按照我的方法,无数人戒烟成功了,一点痛苦也没有,不会反弹”。听着有些假,像是十多年前的减肥广告。但是建立医患信心也是成功的必要条件吧。

再次,反复暗示吸烟并无快感,听完我的解释读者会觉得吸烟无比恶心。和第二点类似,这个论点的实质性内容也几乎没有在书中找到。

最后,比较有意思的是作者解释了吸烟成瘾的原理,不过作者不是医学生出身(没记错的话在改行帮人戒烟之前是一名会计),姑妄听之:

香烟是非常轻度的毒品,只有心理依赖,其生理依赖是微乎其微的。因此戒烟并不困难;
吸烟者尝试的第一口香烟感觉都十分糟糕,没有任何快感。但当尼古丁在身体中消失,会造成一定的不适,暂缓这种不适的途径就是再来一根——这与一般的成瘾不同,后者是毒品给人以快感。而吸烟者无法区分这两种反应的差别,误以为香烟给人以快感。

 

如何拍出清晰的赛车照片

这里说的当然不是放在展厅里的静止赛车,而是在赛道上高速运动的赛车。完美的赛车照片需要主体(赛车)清晰,同时背景在赛车运动方向上模糊。

拍摄这样的照片原理上并不困难,只要镜头随着赛车运动,保持赛车在CMOS上的影像静止,就能拍摄到清晰的主体,这样的技巧又称为甩狙。既然原理这么简单,剩下的就是实践了,刚开始就直接取赛车场拍摄可能会拍到很多不太理想的照片,所以线下联系时不可或缺的。

我的第一次练习是在光华楼前空地进行的,带好相机,镜头需要选择长焦的,坐在光华楼的台阶上,面前的空地不时会有送外卖和快递的小哥飞驰而过。之所以要坐在台阶上是要和被拍摄者保持一定的具体,等到他们出现再从容的端起镜头,不至于还没反应过来人就不见了。

这样的练习进行一个小时就足够了(得益于发达的网购和外卖),期间还可以拍拍蓝天白云和草地上的熊孩子,总之是个很轻松的活,也不必有任何负担,毕竟光华楼不要门票。导出照片后如果有十分之一的照片可用就足够了。

找一场赛车比赛,不推荐F1,因为人实在太多,难保相机不会前排观众的人砸掉。我选择了长达6个小时的WEC耐力赛,去之前我对这里面的车队一无所知,只知道有6个小时可以拍,足够找到两张好照片。

不得不承认,拍赛车和拍快递电瓶车还是有区别的。

首先需要选择一个好位置,我的经验总结是待在大直道的末端,这样赛车攻进最后一弯出现在大直道上还有时间慢慢端起镜头让赛车出现在镜头中心,这是用镜头去跟赛车也相对比较慢,随着赛车靠近镜头移动的速度也要加快,这当中任何一点都可以按下快门。

拍摄的姿势也不同,坐在看台上容易被前排的人挡着,镜头移动也不稳定。正确站姿有点像在公园里打太极拳,两腿分开与肩同宽,并且保证腰板挺直,让上身随着腰转动。

除此之外还需要一些耐心。到了赛场会发现很多拿着手机拍小视频的朋友,也有拿着长枪短炮来甩狙的爱好者。不用担心拿着长镜头的爱好者看到自己拍糊的照片,要坚信他们也拍糊了。最后,6个小时的比赛只要能拍到若干张清晰的照片就是比较成功的了,毕竟朋友圈一次也只能发9张照片。