继上次文本分析走了各种弯路之后(见前几篇博文),时值周末,就回家休息了,昨晚回到宿舍,重新换个思路搞,这次的思路就没有那么天马行空了,拿 PHP 从数据库把 HTML 提出来,滤掉标签,中文分词,然后分月统计,事实证明,脚踏实地是管用的,昨晚写了一部分,后来熄灯了,今天早上又要实习,于是中午回来继续改改,就…… 阅读全文
校长信箱的一些统计数字
Reply
继上次文本分析走了各种弯路之后(见前几篇博文),时值周末,就回家休息了,昨晚回到宿舍,重新换个思路搞,这次的思路就没有那么天马行空了,拿 PHP 从数据库把 HTML 提出来,滤掉标签,中文分词,然后分月统计,事实证明,脚踏实地是管用的,昨晚写了一部分,后来熄灯了,今天早上又要实习,于是中午回来继续改改,就…… 阅读全文
昨晚看到有人因为章校长退休了,怕信箱不再,于是在爬数据,反正闲着没事干,于是我也爬,观察了一下 URL ,每个部门或者领导有一个这样的属于自己的 URL
http://www.szu.edu.cn/mailbox/list.asp?leader=%CA%A6%D4%BA%B0%EC%B9%AB%CA%D2&page=4
leader 字段后面是名字,编码是 gb2312 ,顺带一提,整个流程的编码都…… 阅读全文