PHP、MYSQL和WordPress编程散记

Monday, April 21st, 2008

为了解决StatPress存在的中文乱码问题并清除无效spider信息,me下功夫K了不少php、mysql以及WordPress的编程信息。怕下次再重新学习一道,记录一下知识点,聊以备忘。

一、PHP

  1. 连接字符串使用.,比如$nome."|".urldecode($tab[1])。
  2. 调用变量用$,函数则直接调用。
  3. 字符串处理的一些常用函数。strpos寻找字符串中某字符最先出现处,strrpos寻找字符串中某字符最后出现处,这两个函数都反馈整数值,如果没有找到则返回false;strrchar则返回字符最后出现处至结尾的子字符串,strstr则返回搜索字符串最后出现处至末尾的子字符串;substr取部分字符串,string substr(string string, int start, int [length]);start和length如果是负数则从末尾算起;ereg用正则表达式对字符串进行比较或返回拆分后的数组,eregi同ereg,只是大小写无关,ereg_replace和eregi_replace按照一定的规则进行替换;str_replace替换特定的子字符串,str_replace("%body%", "black", "<body text=%body%>");
  4. 处理url的函数有urlencode和urldecode,前者把"为什么"转为%CE%AA%CA%B2%C3%B4,后者再把它转回来。编码是为了适应浏览器对url的处理规则, 对字符串多解码一次也没什么影响,还是原样。还有个函数是parse_url,返回数组,可以通过component调用处理结果,支持的component有scheme、host、port、user、pass、query、fragment。
  5. iconv可以把字符串在不同的字符集间进行转换,比如iconv("gb2312","utf-8",$str)。
  6. gb2312的字符encode后占两位,也就是有两个%,而utf-8则是三位,每个字有三个%,示例:为什么如何使utf-8则encode后为%E4%B8%BA%E4%BB%80%E4%B9%88,共9位,如果是gb2312则为%CE%AA%CA%B2%C3%B4,只有6位。
  7. if中的条件判断语句不能用=而是==,否则就直接赋值了,比如$nome == "Baidu"。
  8. explode函数把由特定间隔符分割的字符串拆解成数组,比如$str = "wd=home",$array = explode("=",$str)后得到array,其中array[0]=wd,array[1]=home。
  9. count则统计数组中元素的个数,count($array)的话就是2。
  10. 调试函数在,怎么忽然就该页为空了(在浏览器中啥都不显示),试了几次都不行。想想刚才都做了什么,也就是更改了页面的charset,从gb2312到utf-8,另外就是增加了两行代码。把代码删除,问题依旧;把charset改回去,还是不行。于是就怀疑是不是服务器不稳定,坏了。重新启动,问题居然依旧。这时候才想到去查服务器的log。一看不打紧,全是500,呵呵,标准的服务器内部错误,并且提示PHP Parse error: syntax error, unexpected T_STRING 在某个文件中云云。Google了下,还是没啥概念。在搜索结果中转来转去,忽然有点感觉了,还是代码出了问题,php无法解析导致的。再次检查,晕,还真是,后面加的两行代码导致的。调用函数居然没有用括号括住参数,具体如此println iconv("gb2312","utf-8",$stem);呵呵晕死。加上应该的括号后变成了这样println(iconv("gb2312","utf-8",$stem));搞定!
  11. date是用来输出时间日期为特定形式的函数,具体的时间日期值通过mktime获得。date_default_timezone_set('Asia/Shanghai');居然只支持Shanghai、Chongqing等,但没有北京。$startday = mktime(0,0,0,2,30,2008);居然也有效,不过生成的日期是2008年3月1日,自动处理了。(strtotime("now")-$startday)/86400;获得从某特定日期到现在的所过天数。


二、MYSQL
(一)不知道PHP的函数是否可以直接用在SQL语句中,只好把要处理的记录全查出来后根据id一条条进行处理,示例代码如下:
$qry = $wpdb->get_results("SELECT id, urlrequested FROM $table_name WHERE (urlrequested is not null) and (urlrequested != '')");
print "...".count($qry)." select-ed; ";
foreach ($qry as $rk) {
$tmpstr = urldecode($rk->urlrequested);
$q="UPDATE $table_name SET urlrequested = '$tmpstr' WHERE id=".$rk->id;
$wpdb->query($q);
}
print "".__('done','statpress')."
>";
me非常担心这样的语句如果不能按照本意进行,会毁掉所有记录的那一栏数据:
update $table_name set urlrequested = urldecode(urlrequested);
(二)在本地安装的php、mysql和wordpress组合中导入网站导出的数据(为后缀名为sql的文本文件),命令语句:

mysql -uroot dataname < dataname_wp_20080427_287.sql

(三)创建数据库并授权以及添加用户。

用root登陆后 create database db_name;

grant all on db_name.* to db_user@host identified by 'password';

(四)update语句影响的set数目。为了使statpress在update时能精确显示信息,me增加了setcount参数进行统计,点击statpressUpdate时结果如下:

Updating OSes: 2006 sets are set to blank. 2006 sets are updated. done
Updating Browsers: 2009 sets are set to blank. 2009 sets are updated. done
Updating Spiders: 0 sets are set to blank. 0 sets are updated. done
Updating Feeds: 0 sets is set to blank. All is done.
Updating Search engines: 458 sets is set to blank!
2284 are select-ed, 458 are updated!

可以看出,在每个项目中被置空的数据记录居然数量不一样(OS中是2006个,Browser中则是2009个)。按道理像这样的语句 UPDATE $table_name SET spider = ''; 应该是更新数据库中的所有记录数才对啊。Google了半天,总算搞清楚了原因。那就是MYSQL在更新数据时如果该数据和将被更新的数据一致的话则不会发生作用,这样的话上面语句仅仅更新了那些不是''的记录。仔细想想,这种处理确实有理,可以提高sql语句运行效率,在数据库很大的时候当然会显得非常有必要。

(五)清除某些插件的残留物。插件启用后有些时候感觉不好用,总是要放弃的,但有些不友好的会留下一些东西,像创建的数据库啊以及在options中的记录等。用下面语句清除:feed_statistics、wp-poll、tantan的ga。

$str = '';
foreach($wpdb->get_col("show tables like '%wp_feed_%'") as $db_name){
$str .= $db_name."|";
$wpdb->query("drop table $db_name");
}
$str .= $wpdb->query("delete from wp_options where option_name like '%poll_%'")."|";
$str .= $wpdb->query("delete from wp_options where option_name like '%feed_statistics_%'")."|";
$str .= $wpdb->query("delete from wp_options where option_name like '%tantan_ga%'")."|";

三、WordPress
(一)、查看StatPress统计的记录,居然有这样访问的:
/2006/05/23/javascript:void($('akst_form').style.display='none');
是不是有人想黑me啊。

又发现了怪怪的urlrequest,这次是¤§??? and 1=1,me把它敲入地址栏后就转换成了 http://52good.skylast.com/%A1%E8%A1%EC???%20and%201=1,页面结果是Error 404,Not Found。

(二)、rss类的url跟随wordpress的permalink设置情况变化:如果是默认的?p=123则get_bloginfo('rss2_url')得到形如http://host/?feed=rss2;如果permalink设置为/%year%/%month%/,则get_bloginfo('rss2_url')得到形如http://host/feed/rss2。statpress对这种情况没有做特殊处理。此种关联也提醒我们不要随便改变wordpress的permalink,因为会影响很多事情。

(三)、在wordpress中所有插件中的函数可以互相调用,并且还可以用在模板中。强,不过,避免函数名称冲突就显得非常非常重要了。

twitter on 2008-04-19

Saturday, April 19th, 2008
  • 国与国之间的斗争从来就没有停息过,为了什么?就一个词:生存。 #
  • 这个TwitterFox如果能给每句话就加上时间标签就更好了。 #
  • 修改StatPress插件的数据文件,增加对Google BlogSearch、Baidu、Yahoo.cn搜索引擎的支持。 #
  • WordPress已经到了2.5.1版本吗?怎么已经有for 2.5.1的插件出现了。 #
  • PHP确实很好玩,现学现用,把StatPress修修补补的终于比较满意了。另外,这php的教学网点不错,很不错。http://tinyurl.com/kgnhm #

Powered by Twitter Tools.

StatPress深度使用

Saturday, April 19th, 2008

WordPress博客系统的强项在于扩展应用多多,当然是通过插件实现的。想给“天高云淡”添加一个访问统计方面的插件,发现最流行的是WordPress.com Stats,可惜它好像只对一级域名有效,只好放弃。仔细查阅了WordPress的插件列表,统计类好像分为另类:引用第三方统计服务的,比如把把Google Analytics和Feedburner统计结果拿过来在管理后台显示的Google Analytics and Feedburner Reports plugin for WordPress;还有直接在服务器上统计数据并分析的,比如刚提到的WordPress.com Stats和本文重点研究的StatPress

安装了StatPress后觉得还不错,功能简单实用,统计结果显示也很直观。这几天每天上去看看统计结果,总算对访问情况有了基本的了解(原来一直用Google Analytics,说实话,很复杂;并且不是给blog系统定制的,不直观),但有两个小问题一直让me觉得美中不足:

  1. 在Last Referrers页面中有不少百度的链接,而Google的是直接出现在Last Search Terms页面中,看来是StatPress不能正确识别我们中文用户常用的搜索引擎——百度;
  2. 安装默认是Do not collect spiders visits,但用了两天me觉得那个那个spider对统计分析没啥意义,就在Options中把它取消了。这下好,它是老老实实的不统计spider信息了,但Overview中那个柱形比例图就很难看了:刚安装那两天因为统计了spider,柱子高高的,后来取消后的日期柱子就很矮(唉,主要还是怪浏览量有限,spider的访问居然超过了用户),中间各分类(Visitors、PageViews、Spiders、Feeds)的情况根本看不清楚。

问题虽然不大,但天天面对也挺烦的,更何况me对细节有那么在意,还是想想办法搞定它吧。

把StatPress的插件压缩包打开,里面有两个目录:def和locale。在def下共有四个数据文件,分别是banips.dat、browser.dat、os.dat、searchengines.dat。用EmEditor打开这些dat文件,发现都是基本的文本,中间定义了各种规则。其中searchengines.dat的文本片断如下:

Alice|search.alice.it|qs|
Google|www.google.|q|
Google Groups|groups.google.|q|
Google Images|images.google.|q|
Yahoo|search.yahoo.com|p|
Virgilio|search.virgilio.it|qs|
Arianna|arianna.libero.it|query|
Altavista|.altavista.com|q|

规则很简单,每行定义一个规则,分为三个部分:搜索引擎名称、域名、搜索词标识。me把所有的访问记录通过Export功能导出为csv格式,用Excel打开,通过Excel的分列功能做成数据表,筛选出referrers,发现有百度、yahoo和Google的blogsearch不能被识别。在searchengines.dat添加如下规则:

Google Blog|blogsearch.google.|q|
Yahoo|search.yahoo.com|p|
Yahoo cn|www.yahoo.cn|p|
Baidu|www.baidu.com|bs|
Baidu|www.baidu.com|word|
Baidu|www.baidu.com|wd|

上传至服务器。进入StatPress界面点StatPressUpgrade按钮,OK。再返回统计页面,呵呵,很好,StatPress已经能正确识别百度等中文用户常用的搜索引擎了,第一个问题算是基本解决。但可惜搜索的关键词中的中文好像不能被正确识别,都显示为问号(?),留待下步探究。

第二个问题的解决思路其实很简单,就是把已经统计的spider信息删除就行了,但因为原来从来没有在服务器上操作过php和mysql,虽然心里有底,还是要充分准备的,搞不好把博客系统破坏了就麻烦大了。

打开statpress.php文件,有九百多行代码。大约浏览了下,它创建了一个statpress数据表来记录访问信息,然后就是各种功能板块的实现代码。仔细查阅后,me决定在iriStatPressExport函数中加入代码删除包含有spider的数据记录。代码如下:

 
        print "Detele the Spider, start:";
	$qry = $wpdb->query("DELETE FROM $table_name WHERE spider != ''");
	if($qry == 0){
		print "Detele the Spider, DONE.";
	}
	else if($qry === FALSE){
		print "Error occurred when deleting the record with spider content.";
	}else{
		print "".$qry." records with spider content is deleted.";
	}
 

上传至服务器,执行了一次导出数据(Export),打开生成的csv文件,末尾处显示Detele the Spider, start;752 records with spider content is deleted.呵呵,总共删除了752条记录,成功。再次登陆统计界面,柱子已经很均匀了,也很直观。这第二个问题也基本搞定

美中不足的是me发现feeds数据好像少了些。打开第一次到处的csv数据,发现居然还有部分记录是在spider和rss中都有数据,统计了下共有五十条记录,晕,看来me误杀了这部分记录,想恢复是不可能的了,只好作为经验教训了:下次对数据库操作时一定要彻底弄清楚数据库的结构

twitter on 2008-04-13

Sunday, April 13th, 2008
  • Twitter Tools居然还没有更新,看来alexking兄弟是忙的不行了。几点希望:能用本地时间的凌晨发布twitter每日摘要;不但有每日摘要,最好有周摘要,当然能定制的话更好;侧栏的链接应省略方式#
  • 添加Share this插件成功,可惜很多本地化的社会分享书签尚未加入,对中文用户不够友好。不知道“可能吧”是否升级了! #
  • 完成了个小任务,php语言还是很好入门的,不过在别人基础之上修修补补还凑合,精进就很难了。另外,css要用好也需要不少功夫,me还没有入门。 #
  • 升级后的share this不但功能不合适(不支持很多本地化的收录),速度又超级慢,算了,返回“可能吧”的1.4本地版。 #
  • 在WP2.5下写文章时上传附件很不方便,找了半天才觉得可能是那个Add Media,但上传zip包又没有成功,不知何故。 #
  • ScribeFire对del.icio.us和technorati的支持仍然很不稳定(当然很有可能要归功于伟大的墙),只好弃用。 #
  • 看ocde通过TwitterFox发送信息,me再次安装上试试。感觉很不错,呵呵。以后就这个了。Google Desktop的那个插件留着先,备用。 #
  • 终于启用了WP的tag功能。me对新东东一直没有太大兴趣,这次准备看看能坚持多久,一方面看其功用,附带检验me的毅力。 #
  • TwitterFox在wiki中说可以解码tinyurl,还可以提示信息时间,方法就是hover。但是me不管咋hover都没有反应啊!难道是me的rp问题? #
  • http://picasaweb.google.com 怎么突然之间慢的像乌龟,打开一幅图要十几分钟,好老超时。发篇图片blog要累死,唉。 #
  • 突然不寒而栗:picasaweb该不会是因为近段网上直飞的奥运图片被墙了吧!看晚上这个速度,很像残废的状态。 #
  • Google的picasaweb上的图片存放在 ggpht.com 下,不知道是不是应付不过来了,还是被暴力了?!不管怎样都不是好事哟。 #
  • @GSeeker 哈哈。尤其是喝到现在…… #

Powered by Twitter Tools.

订阅数量统计

Sunday, April 13th, 2008

昨天的聚合输出乱码把me的关注点吸引到feed、rss等相关的东东方面来。虽然输出乱码的问题已经暂时解决,但me对feedburner的价值认同大幅度降低,不能再完全依靠它,再次使用其feedflare功能发现超慢之后me就更是无法留恋了。

到WP后台停掉了FeedBurner FeedSmith插件,它的作用是把所有对原生聚合输出的存取都自动转向到feedburner去。这样与feed相关的插件就只剩下Feed CountFeed Statistics了。两个都是统计订阅数的,前者针对feedburner,把由其托管的订阅数提取出来,后者则针对原生输出的订阅进行统计。me从来没有用过feedsky等其他烧录服务,因此从理论上讲这两个的统计之和应该就是“天高云淡”的总订阅数。好,下面的任务就是把总订阅数动态显示在侧栏

Feed Count的官方网站这几天一直处于维护状态,没有更详细的资料,好像也不支持widget,只提供了一个函数供调用,如下:

&lt; ?php if (function_exists('fc_feedcount')) fc_feedcount(); ?&gt;

另外Feed Count在WP后台提供了个性化设置界面,可以对上面函数的输出做个性化配置,但是调用该函数后的输出像这样52 位订阅者,不但是字符串不是数值,还带有链接。查看feedcount.php在源码的fc_feedcount函数中发现有这么一部分:

        if (trim($map_fc_link)!='') {
$openlink = "<a href="http://52good.skylast.com/wp-admin/$map_fc_link">";
$closelink="</a>";
}
print "
<div class="feedcountdiv">
 
$openlink<span class="feedcount">\n";
if ($map_fc_before) {
print " <span class="before">$map_fc_before</span>\n";
}
print "<span class="subscribers">$number</span>\n";
if ($map_fc_after) {
print " <span class="after">$map_fc_after</span>\n";
}
print "</span>$closelink
</div>
 
";

并且该函数返回值为空,因为它已经把结果print了。其实me只是需要那个$number而已。用一句

eturn $number;

替代上面代码就OK了。
再来看Feed Statistics,其调用函数feed_subscribers源码如下:

function feed_subscribers(){
$s = FEED_STATS::how_many_subscribers();
echo $s." feed subscriber";
if ($s != 1) echo "s";
}

我们需要的是那个$s,把它返回就行了。
很好,两个数值我们都可以通过调用函数得到了,下面我们来定制输出:
直接订阅

&lt; ?php if (function_exists('feed_subscribers'))
$stat_or=feed_subscribers();
print $stat_or; ?&gt;

人,通过feedburner订阅

&lt; ?php if (function_exists('fc_feedcount'))
$stat_fb=fc_feedcount();
print $stat_fb ?&gt;

人;本站共计有

<strong>&lt; ?php print $stat_or+$stat_fb;?&gt;</strong>

人订阅。不过这样好像不大美观,并且内容复杂,me去feedburner网站下了两个小图标上传至服务器,效果见页面左上角,最终代码如下:

 
<li>
<h2>订阅统计</h2>
<ul>
<div class="feedcount">
<a href="http://52good.skylast.com/feed/rss/" target=_blank>
<img src="/wp-content/imgs/rss.png"/></a></div>
</ul>
</li>
 
< ?php if (function_exists('feed_subscribers')) $stat_or=feed_subscribers(); print $stat_or; ?>人,
 <a href="http://feeds.feedburner.com/gardenyard" target=_blank><img src="/wp-content/imgs/fb.ico"/></a>
< ?php if (function_exists('fc_feedcount')) $stat_fb=fc_feedcount();print $stat_fb ?>人;共计<b>
< ?php print $stat_or+$stat_fb;?></b>人订阅。
 
 

至于进一步的美化就需要您自己设计css了,呵呵。


关闭
E-mail It